Um relatório de 2025 do Stanford Institute for Human-Centered Artificial Intelligence (HAI) concluiu que muitos modelos de grande porte (LLMs) populares apresentam desempenho inferior em línguas que não o inglês. Essa lacuna decorre em grande parte do domínio do inglês na internet e da dependência dos desenvolvedores em conjuntos de dados majoritariamente anglófonos, o que tende a privilegiar normas culturais de países com muitos recursos.
Investigadores e a imprensa apontaram que LLMs públicos, incluindo alguns criados em parte pela Google e pela Meta, podem gerar respostas que não atendem às necessidades de quem não fala inglês. Reportagens indicaram que milhões de falantes de línguas como o curdo e o suaíli ficam na prática em segundo plano. Em aplicações cotidianas surgem falhas: a Wired mostrou que pedir a um modelo para escrever um e‑mail em tâmil pode produzir um rascunho confuso em inglês. O MIT Technology Review constatou que muitos textos na web em línguas com poucos recursos contêm traduções automáticas com erros; esses textos entram nos dados de treino e reforçam imprecisões.
Além dos problemas técnicos, há efeitos culturais: veículos como The Atlantic alertaram que as saídas da IA tendem a refletir normas e valores de falantes de inglês em países bem providos de recursos, o que torna invisíveis outras perspetivas. Observadores também dizem que a abordagem de "agir rápido e quebrar coisas" continua na era da IA, deixando comunidades não anglófonas em desvantagem.
Especialistas recomendam medidas concretas: as empresas devem colaborar com comunidades marginalizadas e com líderes locais de IA ao construir modelos, incluir contributos locais, rever as respostas quanto à precisão e autenticidade e estabelecer parcerias que respeitem diferenças culturais. Medidas práticas propostas incluem:
- Trabalhar com comunidades locais
- Validar dados multilíngues
- Formar parcerias com desenvolvedores comunitários
Palavras difíceis
- lacuna — diferença ou vazio entre duas situações
- domínio — predomínio ou controle de uma área ou assunto
- conjunto de dados — coleção organizada de informação usada para treinoconjuntos de dados
- anglófono — que fala ou usa o inglês como língua principalanglófonos, anglófonas
- marginalizado — pessoas ou grupos excluídos socialmente ou economicamentemarginalizadas
- validar — verificar se algo é correto ou adequado
- autenticidade — qualidade de ser genuíno ou verdadeiro
- norma cultural — padrões partilhados de comportamento e crençasnormas culturais
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que vantagens e riscos vê na recomendação de colaborar com comunidades locais ao construir modelos de IA?
- Como as empresas podem validar dados multilíngues de forma eficaz em projetos reais?
- Que exemplos concretos de parcerias com desenvolvedores comunitários poderiam melhorar resultados para línguas com poucos recursos?
Artigos relacionados
Bateria que usa bactérias do solo para gerar energia
Uma empresa derivada de uma universidade do Reino Unido criou a Bactery, uma bateria que usa microrganismos do solo para gerar eletricidade e alimentar sensores agrícolas. Testes-piloto no Brasil mostraram o conceito e a empresa planeia produção em pequena escala.
Pessoas com degeneração macular estimam chegada de veículos de modo semelhante
Um estudo com realidade virtual comparou adultos com degeneração macular relacionada à idade (AMD) e adultos com visão normal. Os resultados mostraram desempenho parecido entre os grupos e nenhuma vantagem clara quando visão e som estavam juntos.