I grandi modelli linguistici vengono usati per dare consigli e istruzioni. Per questo i ricercatori vogliono che le risposte siano sicure e non possano provocare danni.
Un team della North Carolina State University ha studiato come funziona l'allineamento alla sicurezza. Ha individuato due problemi principali: l'addestramento per la sicurezza può ridurre l'accuratezza del modello, chiamato "alignment tax", e il controllo di sicurezza può essere superficiale e aggirabile dagli utenti.
Il gruppo ha proposto l'ipotesi SSAH e ha sperimentato di "congelare" parti critiche del modello durante il fine-tuning, così si conserva la sicurezza mentre il modello apprende nuovi compiti. Il codice è disponibile online.
Parole difficili
- allineamento — atto di rendere le risposte più sicure
- accuratezza — precisione delle risposte o dei risultati
- aggirabile — che si può evitare o superare facilmente
- congelare — bloccare parti del modello durante l'addestramento
- ipotesi — idea o spiegazione che si prova con esperimenti
- ricercatore — persona che fa studi e ricerca scientificaricercatori
- apprendere — imparare nuove capacità o informazioniapprende
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Perché secondo te è importante che le risposte non provochino danni?
- Hai mai usato un modello per avere consigli o istruzioni? Racconta brevemente.
- Cosa pensi del metodo di congelare parti del modello per mantenere la sicurezza?
Articoli correlati
Tessuti intelligenti con MXene per salute ed energia
Una recensione esamina come i tessuti con MXene possano monitorare parametri vitali, avere proprietà antimicrobiche e raccogliere energia solare. Gli autori segnalano però problemi di ossidazione e di sostenibilità nella produzione.
Social media e la vendita illegale di carne selvatica in Africa occidentale
Uno studio pubblicato su One Health avverte che i social media possono aumentare la vendita illegale di carne selvatica in Africa occidentale, minacciando la biodiversità e aumentando il rischio di malattie che passano dagli animali all’uomo.
Controversie sul vaccino contro la peste suina nelle Filippine
La peste suina africana minaccia l'allevamento e la sicurezza alimentare nelle Filippine. Il governo presenta kit diagnostici e ha importato il vaccino AVAC dal Vietnam, ma esperti e allevatori contestano i risultati e la sicurezza.
Blackout di Internet in Iran e modello a lista bianca
Le proteste in Iran tra dicembre 2025 e gennaio 2026 hanno provocato uno dei blackout più lunghi del paese. Lo shutdown totale dell'8 gennaio ha limitato la connettività; accessi parziali sono tornati dal 23 gennaio ma molte restrizioni persistevano al 23 febbraio.
I modelli linguistici cambiano giudizio se conoscono l'autore
Ricercatori dell'University of Zurich mostrano che i grandi modelli linguistici valutano diversamente lo stesso testo quando viene indicata l'identità dell'autore. Lo studio rileva pregiudizi nascosti, incluso un forte bias anti‑cinese.