Ricercatori di Brown University hanno esaminato se i moderni modelli di linguaggio codifichino vincoli causali del mondo reale nei loro stati interni. Il lavoro, guidato dal dottorando Michael Lepori e presentato all'International Conference on Learning Representations a Rio de Janeiro, usa l'interpretabilità meccanicistica per «invertire l'ingegneria» di ciò che il modello rappresenta.
Nel test i ricercatori hanno mostrato frasi con vari gradi di plausibilità: eventi comuni ("raffreddare una bevanda con il ghiaccio"), improbabili ("...con la neve"), impossibili ("...con il fuoco") e prive di senso ("...con ieri"). Hanno quindi analizzato gli stati matematici interni prodotti dai modelli per identificare segnali coerenti con le categorie di plausibilità.
Gli esperimenti, condotti su più modelli open-source come OpenAI GPT-2, Llama 3.2 di Meta e Gemma 2 di Google, hanno mostrato che modelli abbastanza grandi sviluppano vettori interni distinti corrispondenti alle categorie di plausibilità. Questi vettori distinguono anche categorie vicine — per esempio improbabile vs impossibile — con un'accuratezza di circa 85% e riflettono l'incertezza osservata nei sondaggi umani. I vettori cominciano a emergere in modelli con più di 2 miliardi di parametri.
- L'interpretabilità meccanicistica può rivelare ciò che i modelli codificano.
- I vettori corrispondono ai giudizi di plausibilità umani.
- I risultati potrebbero favorire lo sviluppo di modelli più intelligenti e affidabili.
Parole difficili
- interpretabilità meccanicistica — studio di come funzionano internamente i modelli
- vincolo — regola o limite che governa il mondo realevincoli causali
- stato — condizione interna o rappresentazione numerica attualestati interni
- vettore — insieme di numeri che rappresenta informazionivettori interni distinti, vettori
- plausibilità — grado di credibilità o probabilità di un evento
- parametro — valore numerico che determina il comportamento del modelloparametri
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- In che modo scoprire vettori di plausibilità potrebbe rendere i modelli più affidabili? Spiega con esempi tratti dall'articolo.
- Quali vantaggi e rischi vedi nell'usare interpretabilità meccanicistica per analizzare modelli open-source?
- Perché pensi che i vettori comincino a emergere solo in modelli con più di 2 miliardi di parametri?
Articoli correlati
Uganda: riforme per scienza e innovazione
Un rapporto nazionale chiede riforme nei sistemi di scienza, tecnologia e innovazione in Uganda per aiutare il paese a diventare a reddito medio. Segnala lacune di genere, finanziamenti deboli e la necessità di collegare ricerca, governo e imprese.
Un modello fisico per immagini di risonanza magnetica più nitide
Ricercatori della Rice University e dell'Oak Ridge National Laboratory hanno sviluppato un nuovo quadro fisico che collega il moto molecolare ai segnali MRI e migliora la descrizione del rilassamento NMR nei liquidi.
Il cervello predice parole usando gruppi grammaticali
Una ricerca pubblicata su Nature Neuroscience mostra che il cervello anticipa le parole considerando gruppi grammaticali (costituenti), non solo la singola parola successiva. Lo studio ha usato MEG, test Cloze e dati in mandarino e inglese.