Secondo un documento del 2025 del Stanford Institute for Human-Centered Artificial Intelligence, molti modelli linguistici di grandi dimensioni funzionano male in lingue diverse dall'inglese. Questo divario nasce perché il mondo online è dominato dall'inglese e molti sviluppatori si basano su dati prevalentemente anglofoni. La concentrazione di aziende e dati in aree più ricche, come la Silicon Valley, ha ampliato la frattura.
I problemi sono pratici e culturali. Testate come Wired hanno riportato che chiedere a ChatGPT di scrivere una e-mail in tamil può generare una bozza confusa in inglese. Il MIT Technology Review ha trovato che molti testi in lingue a bassa risorsa raccolti dal web contengono errori di traduzione; contributori benintenzionati spesso non hanno le competenze per verificarli, e questi contenuti entrano nei dati di addestramento consolidando gli errori. Osservatori, tra cui The Atlantic, hanno avvertito che gli output dell'IA riflettono norme e valori anglofoni, rendendo invisibili prospettive non inglesi e lasciando milioni di parlanti di lingue come il curdo e lo swahili in secondo piano.
Esperti e commentatori propongono passi concreti per ridurre i danni e migliorare l'equità. Tra le raccomandazioni principali ci sono:
- Lavorare con le comunità locali e i leader di AI sul territorio.
- Validare e pulire i dati multilingue prima dell'addestramento.
- Collaborare con sviluppatori della base e creare partnership rispettose delle differenze culturali.
Queste misure mirano a includere input locali, verificare accuratezza e autenticità degli output e costruire sistemi più utili per utenti non anglofoni.
Parole difficili
- modello linguistico — programma che genera o analizza testimodelli linguistici
- divario — differenza significativa tra gruppi o situazioni
- anglofono — che usa principalmente la lingua ingleseanglofoni
- addestramento — processo di preparazione dei modelli con dati
- contributore — persona che pubblica o aggiunge contenuti onlinecontributori
- validare — controllare se dati o informazioni sono corretti
- frattura — separazione o divario profondo tra gruppi
- autenticità — qualità di essere reale e non falso
Suggerimento: passa il mouse o tocca le parole evidenziate nell’articolo per vedere definizioni rapide mentre leggi o ascolti.
Domande di discussione
- In che modo la predominanza dell'inglese online può influire sull'accesso alle informazioni per persone che parlano altre lingue?
- Quali passi pratici pensi siano più efficaci per coinvolgere le comunità locali nello sviluppo di AI multilingue?
- Quali difficoltà potrebbero incontrare i ricercatori nel validare e pulire dati multilingue raccolti dal web?
Articoli correlati
Archivio digitale per salvare le lingue del Bangladesh
Un progetto del governo del Bangladesh ha creato il sito Multilingual Cloud per documentare 42 lingue indigene. Il portale pubblica parole, frasi, trascrizioni in IPA e registrazioni audio per conservare le lingue in pericolo.
Piccole pause per frenare la disinformazione sui social
Ricercatori dell'University of Copenhagen propongono di rendere più difficile la condivisione con una breve pausa e un elemento di apprendimento. Un modello mostra che la frizione digitale e brevi quiz possono ridurre le condivisioni impulsive.