Une étude de 2025 du Stanford Institute for Human-Centered Artificial Intelligence (HAI) alerte sur un important fossé linguistique dans les grands modèles de langage (LLMs). Beaucoup de LLMs publics, y compris certains développés en partie par Google et Meta, donnent de mauvais résultats pour des langues autres que l'anglais, car les jeux de données en ligne restent majoritairement anglophones.
La concentration des entreprises d'IA et des données dans des régions riches, comme la Silicon Valley, a accentué cette fracture. Des médias ont rapporté que des millions de personnes parlant des langues comme le kurde ou le swahili sont effectivement reléguées. Wired illustre le problème en montrant qu'une demande d'écrire un courriel en tamoul peut aboutir à un brouillon confus en anglais. Le MIT Technology Review a aussi constaté que de nombreux textes en langues peu présentes sur le web contiennent des erreurs de traduction automatique; ces contenus, fournis par des contributeurs bien intentionnés mais parfois non qualifiés, deviennent ensuite des données d'entraînement qui amplifient les erreurs.
Outre des problèmes techniques, les sorties d'IA tendent à refléter les normes et valeurs des anglophones des pays bien dotés, rendant invisibles d'autres perspectives. Certains observateurs estiment que l'approche technologique « avancer vite et casser les choses » se poursuit à l'ère de l'IA, au détriment des communautés non anglophones.
Pour réduire ces préjudices, des experts proposent des mesures concrètes : travailler avec les communautés marginalisées et les leaders locaux en IA, intégrer des contributions locales, valider et contrôler l'exactitude des sorties, et nouer des partenariats respectueux des différences culturelles.
Mots difficiles
- fossé — grande séparation ou différence entre groupesfossé linguistique
- donnée — information collectée ou enregistrée pour analysedonnées
- reléguer — mettre à l'écart ou marginaliser un groupereléguées
- contributeur — personne qui fournit du contenu ou aidecontributeurs
- entraînement — processus d'apprentissage pour un modèle informatiqued'entraînement
- préjudice — biais ou effet négatif sur un groupepréjudices
- norme — règle ou valeur acceptée dans une sociéténormes
- valider — vérifier que quelque chose est vrai ou correct
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Comment les entreprises d'IA pourraient-elles mieux inclure les langues peu présentes sur le web ? Donnez des exemples concrets.
- Quels effets peuvent avoir sur une communauté le fait que les normes et valeurs anglophones dominent les sorties d'IA ?
- Quels avantages et quelles difficultés voyez-vous à collaborer avec des contributeurs locaux pour améliorer les données d'entraînement ?
Articles liés
Des capteurs bon marché pour surveiller la pollution en Afrique du Sud
Des scientifiques ont adapté des méthodes de physique des particules pour créer AI_r, un réseau de capteurs à faible coût qui mesure la qualité de l'air en temps réel. Le projet s'étend de Soweto à Sedibeng avec 500 capteurs prévus.