Secondo un documento del 2025 del Stanford Institute for Human-Centered Artificial Intelligence, molti modelli linguistici di grandi dimensioni funzionano male in lingue diverse dall'inglese. Questo divario nasce perché il mondo online è dominato dall'inglese e molti sviluppatori si basano su dati prevalentemente anglofoni. La concentrazione di aziende e dati in aree più ricche, come la Silicon Valley, ha ampliato la frattura.
I problemi sono pratici e culturali. Testate come Wired hanno riportato che chiedere a ChatGPT di scrivere una e-mail in tamil può generare una bozza confusa in inglese. Il MIT Technology Review ha trovato che molti testi in lingue a bassa risorsa raccolti dal web contengono errori di traduzione; contributori benintenzionati spesso non hanno le competenze per verificarli, e questi contenuti entrano nei dati di addestramento consolidando gli errori. Osservatori, tra cui The Atlantic, hanno avvertito che gli output dell'IA riflettono norme e valori anglofoni, rendendo invisibili prospettive non inglesi e lasciando milioni di parlanti di lingue come il curdo e lo swahili in secondo piano.
Esperti e commentatori propongono passi concreti per ridurre i danni e migliorare l'equità. Tra le raccomandazioni principali ci sono:
- Lavorare con le comunità locali e i leader di AI sul territorio.
- Validare e pulire i dati multilingue prima dell'addestramento.
- Collaborare con sviluppatori della base e creare partnership rispettose delle differenze culturali.
Queste misure mirano a includere input locali, verificare accuratezza e autenticità degli output e costruire sistemi più utili per utenti non anglofoni.
Parole difficili
- modello linguistico — programma che genera o analizza testimodelli linguistici
- divario — differenza significativa tra gruppi o situazioni
- anglofono — che usa principalmente la lingua ingleseanglofoni
- addestramento — processo di preparazione dei modelli con dati
- contributore — persona che pubblica o aggiunge contenuti onlinecontributori
- validare — controllare se dati o informazioni sono corretti
- frattura — separazione o divario profondo tra gruppi
- autenticità — qualità di essere reale e non falso
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- In che modo la predominanza dell'inglese online può influire sull'accesso alle informazioni per persone che parlano altre lingue?
- Quali passi pratici pensi siano più efficaci per coinvolgere le comunità locali nello sviluppo di AI multilingue?
- Quali difficoltà potrebbero incontrare i ricercatori nel validare e pulire dati multilingue raccolti dal web?
Articoli correlati
Rapporto: tecnologia e grandi aziende svantaggiano i piccoli agricoltori
Un rapporto dell’IPES-Food pubblicato mercoledì (25 February) avverte che l’alleanza tra grandi società agricole e aziende tecnologiche rende gli strumenti moderni troppo costosi per molti agricoltori su piccola scala. Gli autori chiedono più investimenti pubblici e una governance dei dati più solida.
Studio mostra come cambia l'attività del cervello durante il giorno
Nuovi metodi sperimentali e computazionali usati su topi rivelano, a singola cellula, uno spostamento dell'attività dal centro del cervello verso la corteccia nel corso del ciclo quotidiano. I ricercatori sperano di trovare firme della fatica adattabili anche a dati umani.
Polemica per le parole di Luciano Huck al Parque Indígena do Xingu
Un clip pubblicato su Instagram mostra Luciano Huck chiedere di «ripulire» la cultura durante una registrazione al Parque Indígena do Xingu. Organizzazioni indigene, tra cui Apib, hanno criticato il gesto e difendono l'accesso alla tecnologia.
Metodo ispirato agli stormi migliora i riassunti dell'AI
Ricercatori della New York University hanno creato un metodo che usa principi degli stormi di uccelli per scegliere frasi importanti e fornire input migliori ai modelli linguistici. Il sistema riduce le "allucinazioni" e migliora l'accuratezza dei riassunti.