Um relatório de 2025 do Stanford Institute for Human-Centered Artificial Intelligence (HAI) concluiu que muitos modelos de grande porte (LLMs) populares apresentam desempenho inferior em línguas que não o inglês. Essa lacuna decorre em grande parte do domínio do inglês na internet e da dependência dos desenvolvedores em conjuntos de dados majoritariamente anglófonos, o que tende a privilegiar normas culturais de países com muitos recursos.
Investigadores e a imprensa apontaram que LLMs públicos, incluindo alguns criados em parte pela Google e pela Meta, podem gerar respostas que não atendem às necessidades de quem não fala inglês. Reportagens indicaram que milhões de falantes de línguas como o curdo e o suaíli ficam na prática em segundo plano. Em aplicações cotidianas surgem falhas: a Wired mostrou que pedir a um modelo para escrever um e‑mail em tâmil pode produzir um rascunho confuso em inglês. O MIT Technology Review constatou que muitos textos na web em línguas com poucos recursos contêm traduções automáticas com erros; esses textos entram nos dados de treino e reforçam imprecisões.
Além dos problemas técnicos, há efeitos culturais: veículos como The Atlantic alertaram que as saídas da IA tendem a refletir normas e valores de falantes de inglês em países bem providos de recursos, o que torna invisíveis outras perspetivas. Observadores também dizem que a abordagem de "agir rápido e quebrar coisas" continua na era da IA, deixando comunidades não anglófonas em desvantagem.
Especialistas recomendam medidas concretas: as empresas devem colaborar com comunidades marginalizadas e com líderes locais de IA ao construir modelos, incluir contributos locais, rever as respostas quanto à precisão e autenticidade e estabelecer parcerias que respeitem diferenças culturais. Medidas práticas propostas incluem:
- Trabalhar com comunidades locais
- Validar dados multilíngues
- Formar parcerias com desenvolvedores comunitários
Palavras difíceis
- lacuna — diferença ou vazio entre duas situações
- domínio — predomínio ou controle de uma área ou assunto
- conjunto de dados — coleção organizada de informação usada para treinoconjuntos de dados
- anglófono — que fala ou usa o inglês como língua principalanglófonos, anglófonas
- marginalizado — pessoas ou grupos excluídos socialmente ou economicamentemarginalizadas
- validar — verificar se algo é correto ou adequado
- autenticidade — qualidade de ser genuíno ou verdadeiro
- norma cultural — padrões partilhados de comportamento e crençasnormas culturais
Dica: passe o mouse, foque ou toque nas palavras destacadas no artigo para ver definições rápidas enquanto lê ou ouve.
Perguntas para discussão
- Que vantagens e riscos vê na recomendação de colaborar com comunidades locais ao construir modelos de IA?
- Como as empresas podem validar dados multilíngues de forma eficaz em projetos reais?
- Que exemplos concretos de parcerias com desenvolvedores comunitários poderiam melhorar resultados para línguas com poucos recursos?
Artigos relacionados
Estudo: regras de IA da UE não protegem fora da Europa
Pesquisa da 7amleh conclui que as regras europeias sobre inteligência artificial não acompanham a tecnologia quando sai da UE. Fundos e produtos europeus chegam a governos e militares na Ásia Ocidental e Norte de África com pouca responsabilização.