Ricercatori di Brown University hanno esaminato se i moderni modelli di linguaggio codifichino vincoli causali del mondo reale nei loro stati interni. Il lavoro, guidato dal dottorando Michael Lepori e presentato all'International Conference on Learning Representations a Rio de Janeiro, usa l'interpretabilità meccanicistica per «invertire l'ingegneria» di ciò che il modello rappresenta.
Nel test i ricercatori hanno mostrato frasi con vari gradi di plausibilità: eventi comuni ("raffreddare una bevanda con il ghiaccio"), improbabili ("...con la neve"), impossibili ("...con il fuoco") e prive di senso ("...con ieri"). Hanno quindi analizzato gli stati matematici interni prodotti dai modelli per identificare segnali coerenti con le categorie di plausibilità.
Gli esperimenti, condotti su più modelli open-source come OpenAI GPT-2, Llama 3.2 di Meta e Gemma 2 di Google, hanno mostrato che modelli abbastanza grandi sviluppano vettori interni distinti corrispondenti alle categorie di plausibilità. Questi vettori distinguono anche categorie vicine — per esempio improbabile vs impossibile — con un'accuratezza di circa 85% e riflettono l'incertezza osservata nei sondaggi umani. I vettori cominciano a emergere in modelli con più di 2 miliardi di parametri.
- L'interpretabilità meccanicistica può rivelare ciò che i modelli codificano.
- I vettori corrispondono ai giudizi di plausibilità umani.
- I risultati potrebbero favorire lo sviluppo di modelli più intelligenti e affidabili.
Parole difficili
- interpretabilità meccanicistica — studio di come funzionano internamente i modelli
- vincolo — regola o limite che governa il mondo realevincoli causali
- stato — condizione interna o rappresentazione numerica attualestati interni
- vettore — insieme di numeri che rappresenta informazionivettori interni distinti, vettori
- plausibilità — grado di credibilità o probabilità di un evento
- parametro — valore numerico che determina il comportamento del modelloparametri
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- In che modo scoprire vettori di plausibilità potrebbe rendere i modelli più affidabili? Spiega con esempi tratti dall'articolo.
- Quali vantaggi e rischi vedi nell'usare interpretabilità meccanicistica per analizzare modelli open-source?
- Perché pensi che i vettori comincino a emergere solo in modelli con più di 2 miliardi di parametri?
Articoli correlati
Tufts produce tagatosio con batteri
Ricercatori della Tufts University hanno ingegnerizzato batteri per trasformare il glucosio in tagatosio, uno zucchero raro che potrebbe sostituire lo zucchero da tavola con meno calorie. Il metodo mostra rese più alte rispetto ai processi convenzionali.
Timer molecolari e talamo: come nasce la memoria
Uno studio della Rockefeller University mostra che più timer molecolari in diverse regioni cerebrali controllano la trasformazione delle impressioni in ricordi a lungo termine. Il lavoro individua il talamo come nodo importante e apre possibili vie per terapie sulla memoria.
Rappresentanza nella scienza e fiducia pubblica
Uno studio pubblicato su Nature Human Behaviour mostra che la rappresentazione demografica degli scienziati influisce sulla fiducia del pubblico negli Stati Uniti. Gli autori suggeriscono che più inclusione potrebbe rafforzare la fiducia tra diversi gruppi sociali.