En 2025, une étude du Stanford HAI a montré que de nombreux grands modèles de langage populaires ont de mauvais résultats dans des langues autres que l'anglais. Parmi ces LLMs publics, certains développés en partie par Google ou Meta peuvent produire des réponses qui ne correspondent pas aux besoins de la majorité mondiale.
La concentration des entreprises d'IA et des données dans des zones riches, comme la Silicon Valley, a élargi cette fracture. Des médias rapportent que des millions de personnes parlant des langues telles que le kurde et le swahili se retrouvent reléguées au second plan. Wired note qu'un essai avec ChatGPT a produit un courriel en tamoul qui était confus et en anglais.
Le MIT Technology Review a constaté que des textes de langues peu présentes en ligne contiennent souvent des erreurs de traduction automatique. Ces contenus deviennent parfois des données d'entraînement qui renforcent les erreurs. Des experts recommandent de travailler avec les communautés mises à l'écart, de valider les données et de s'associer à des développeurs locaux.
Mots difficiles
- modèle — programme informatique qui apprend des donnéesmodèles
- fracture — séparation entre groupes ou situations inégales
- reléguer — mettre quelqu'un en position moins importantereléguées
- donnée — information collectée pour analyse ou apprentissagedonnées
- traduction automatique — traduire un texte par un programme informatique
- entraînement — processus pour que le modèle apprenne à partir de donnéesd'entraînement
- valider — vérifier que quelque chose est correct
- communauté — groupe de personnes partageant des intérêts communscommunautés
- s'associer — former un partenariat avec d'autres personnes
Astuce : survolez, mettez le focus ou touchez les mots en surbrillance dans l’article pour voir des définitions rapides pendant que vous lisez ou écoutez.
Questions de discussion
- Quelles actions propose le texte pour aider les langues et communautés mises à l'écart ?
- Pourquoi les erreurs de traduction automatique peuvent-elles se renforcer quand elles servent de données d'entraînement ?
- Que pourriez-vous proposer pour impliquer des développeurs locaux et valider des données linguistiques ?
Articles liés
Détecter l'ADN de saumon dans l'air pour suivre la migration
Lors de la remontée automnale, des chercheurs ont prélevé de l'ADN de saumon dans l'air près d'une rivière pour estimer combien de poissons traversent. Les concentrations aériennes suivaient les comptages visuels, malgré des niveaux beaucoup plus faibles que dans l'eau.
L'IA pour l'information en santé sexuelle en Amérique latine
Des groupes et ONG en Amérique latine utilisent l'intelligence artificielle pour élargir l'accès à l'information sur la santé sexuelle et reproductive. Des projets au Pérou et en Argentine ciblent les jeunes et les populations marginalisées, mais des risques de biais sont signalés.
Violence en ligne contre les femmes journalistes en Indonésie
La violence numérique contre les journalistes et militantes en Indonésie a augmenté. Des attaques ciblées, du doxing au DDoS, visent surtout des femmes; les réponses institutionnelles et la modération des plateformes restent insuffisantes.