I grandi modelli linguistici vengono usati per dare consigli e istruzioni. Per questo i ricercatori vogliono che le risposte siano sicure e non possano provocare danni.
Un team della North Carolina State University ha studiato come funziona l'allineamento alla sicurezza. Ha individuato due problemi principali: l'addestramento per la sicurezza può ridurre l'accuratezza del modello, chiamato "alignment tax", e il controllo di sicurezza può essere superficiale e aggirabile dagli utenti.
Il gruppo ha proposto l'ipotesi SSAH e ha sperimentato di "congelare" parti critiche del modello durante il fine-tuning, così si conserva la sicurezza mentre il modello apprende nuovi compiti. Il codice è disponibile online.
Parole difficili
- allineamento — atto di rendere le risposte più sicure
- accuratezza — precisione delle risposte o dei risultati
- aggirabile — che si può evitare o superare facilmente
- congelare — bloccare parti del modello durante l'addestramento
- ipotesi — idea o spiegazione che si prova con esperimenti
- ricercatore — persona che fa studi e ricerca scientificaricercatori
- apprendere — imparare nuove capacità o informazioniapprende
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Perché secondo te è importante che le risposte non provochino danni?
- Hai mai usato un modello per avere consigli o istruzioni? Racconta brevemente.
- Cosa pensi del metodo di congelare parti del modello per mantenere la sicurezza?
Articoli correlati
Intelligenza artificiale per la salute sessuale in America Latina
Gruppi in Perù e Argentina usano intelligenza artificiale per dare informazioni su salute sessuale e riproduttiva, con progetti per giovani e comunità marginalizzate. Esperti avvertono però rischi per le persone transgender e chiedono regole e dati migliori.
Chi decide la ricerca in medicina tropicale?
Un’analisi mostra che i comitati editoriali delle riviste di medicina tropicale sono dominati da membri dei paesi ricchi, mentre le regioni più colpite restano sottorappresentate. Gli autori propongono misure per aumentare diversità e partecipazione.
Piccole pause per frenare la disinformazione sui social
Ricercatori dell'University of Copenhagen propongono di rendere più difficile la condivisione con una breve pausa e un elemento di apprendimento. Un modello mostra che la frizione digitale e brevi quiz possono ridurre le condivisioni impulsive.
Un indossabile con AI per rilevare la fragilità negli anziani
Ricercatori hanno creato una manica indossabile che usa intelligenza artificiale per identificare segnali precoci di fragilità negli anziani. Il dispositivo analizza i passi sulla coscia e invia i risultati a uno smartphone.