Une étude de 2025 du Stanford Institute for Human-Centered Artificial Intelligence (HAI) alerte sur un important fossé linguistique dans les grands modèles de langage (LLMs). Beaucoup de LLMs publics, y compris certains développés en partie par Google et Meta, donnent de mauvais résultats pour des langues autres que l'anglais, car les jeux de données en ligne restent majoritairement anglophones.
La concentration des entreprises d'IA et des données dans des régions riches, comme la Silicon Valley, a accentué cette fracture. Des médias ont rapporté que des millions de personnes parlant des langues comme le kurde ou le swahili sont effectivement reléguées. Wired illustre le problème en montrant qu'une demande d'écrire un courriel en tamoul peut aboutir à un brouillon confus en anglais. Le MIT Technology Review a aussi constaté que de nombreux textes en langues peu présentes sur le web contiennent des erreurs de traduction automatique; ces contenus, fournis par des contributeurs bien intentionnés mais parfois non qualifiés, deviennent ensuite des données d'entraînement qui amplifient les erreurs.
Outre des problèmes techniques, les sorties d'IA tendent à refléter les normes et valeurs des anglophones des pays bien dotés, rendant invisibles d'autres perspectives. Certains observateurs estiment que l'approche technologique « avancer vite et casser les choses » se poursuit à l'ère de l'IA, au détriment des communautés non anglophones.
Pour réduire ces préjudices, des experts proposent des mesures concrètes : travailler avec les communautés marginalisées et les leaders locaux en IA, intégrer des contributions locales, valider et contrôler l'exactitude des sorties, et nouer des partenariats respectueux des différences culturelles.
Mots difficiles
- fossé — grande séparation ou différence entre groupesfossé linguistique
- donnée — information collectée ou enregistrée pour analysedonnées
- reléguer — mettre à l'écart ou marginaliser un groupereléguées
- contributeur — personne qui fournit du contenu ou aidecontributeurs
- entraînement — processus d'apprentissage pour un modèle informatiqued'entraînement
- préjudice — biais ou effet négatif sur un groupepréjudices
- norme — règle ou valeur acceptée dans une sociéténormes
- valider — vérifier que quelque chose est vrai ou correct
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Comment les entreprises d'IA pourraient-elles mieux inclure les langues peu présentes sur le web ? Donnez des exemples concrets.
- Quels effets peuvent avoir sur une communauté le fait que les normes et valeurs anglophones dominent les sorties d'IA ?
- Quels avantages et quelles difficultés voyez-vous à collaborer avec des contributeurs locaux pour améliorer les données d'entraînement ?
Articles liés
Voiture électrique : utiliser la batterie pour la maison
Une étude de l'University of Michigan, publiée dans Nature Energy, montre que le V2H — utiliser la batterie d'un véhicule électrique pour alimenter un logement — peut faire économiser plusieurs milliers de dollars et réduire les émissions du réseau.
Les grandes entreprises contrôlent l’agriculture numérique
Un rapport d’IPES‑Food publié le 25 February alerte sur l’alliance entre grandes entreprises agricoles et technologiques. Il montre que les outils numériques deviennent difficiles d’accès pour les petits producteurs et appelle à plus de financement public et à une meilleure gouvernance des données.
Un dispositif portable pour détecter la fragilité
Des chercheurs de l'University of Arizona ont créé une manche portable qui utilise l'intelligence artificielle pour repérer tôt la fragilité chez les personnes âgées. L'appareil analyse le mouvement et envoie des résultats via Bluetooth.
Étiquettes ultrasonores sans pile pour la maison intelligente
Des chercheurs de Georgia Tech ont créé de petites étiquettes métalliques sans pile qui émettent des impulsions ultrasonores uniques quand on les touche. Elles sont peu coûteuses, inaudibles pour l'oreille et détectables par un appareil proche.
La connectivité significative reste hors de portée
Un rapport avertit qu'une connexion internet décente est hors de portée pour 90 % des personnes dans les pays à revenu faible et intermédiaire. Il définit la « connectivité significative » et demande plus de 4G, des données moins chères et des téléphones abordables.