Grandi modelli linguistici sono impiegati per compiti che richiedono consigli o istruzioni, quindi la sicurezza delle risposte è fondamentale. Ricercatori della North Carolina State University hanno analizzato come avviene l'allineamento alla sicurezza e hanno provato nuove tecniche di addestramento per ridurre le uscite non sicure mantenendo le prestazioni.
Gli autori hanno individuato due sfide: l'addestramento mirato alla sicurezza può diminuire l'accuratezza del modello, un effetto chiamato "alignment tax", e molti modelli adottano un controllo di sicurezza superficiale che gli utenti possono talvolta aggirare. Jianwei Li e Jung-Eun Kim hanno spiegato che l'allineamento superficiale porta il modello a decidere all'inizio se una richiesta è sicura o meno.
I ricercatori hanno proposto la Superficial Safety Alignment Hypothesis (SSAH) e hanno trovato componenti neurali che influenzano se una richiesta viene esaudita o rifiutata. Congelando queste componenti durante il fine-tuning, il modello conserva il comportamento di sicurezza originale mentre impara nuovi compiti, riducendo l'alignment tax. La ricerca sarà presentata a ICLR2026 e il codice è disponibile su https://ssa-h.github.io/.
Parole difficili
- allineamento — procedura per far rispettare norme di sicurezzal'allineamento
- addestramento — processo per insegnare o migliorare il modello
- sicurezza — assenza di rischi o danni nelle risposte
- accuratezza — grado di correttezza delle risposte del modello
- aggirare — superare una regola o un controllo intenzionalmente
- congelare — fermare parti del modello durante l'apprendimentoCongelando
- componente neurale — parte interna della rete che elabora informazionicomponenti neurali
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- Credi che sia accettabile ridurre un po' l'accuratezza per avere più sicurezza? Perché?
- In che modo, secondo te, un utente potrebbe aggirare un controllo di sicurezza superficiale?
- Preferiresti un modello che mantiene il comportamento di sicurezza originale anche quando impara nuovi compiti? Spiega brevemente.
Articoli correlati
Intelligenza artificiale per la salute sessuale in America Latina
Gruppi in Perù e Argentina usano intelligenza artificiale per dare informazioni su salute sessuale e riproduttiva, con progetti per giovani e comunità marginalizzate. Esperti avvertono però rischi per le persone transgender e chiedono regole e dati migliori.
Chi decide la ricerca in medicina tropicale?
Un’analisi mostra che i comitati editoriali delle riviste di medicina tropicale sono dominati da membri dei paesi ricchi, mentre le regioni più colpite restano sottorappresentate. Gli autori propongono misure per aumentare diversità e partecipazione.
Piccole pause per frenare la disinformazione sui social
Ricercatori dell'University of Copenhagen propongono di rendere più difficile la condivisione con una breve pausa e un elemento di apprendimento. Un modello mostra che la frizione digitale e brevi quiz possono ridurre le condivisioni impulsive.
Un indossabile con AI per rilevare la fragilità negli anziani
Ricercatori hanno creato una manica indossabile che usa intelligenza artificiale per identificare segnali precoci di fragilità negli anziani. Il dispositivo analizza i passi sulla coscia e invia i risultati a uno smartphone.