LingVo.club
📖+40 XP
🎧+25 XP
+45 XP
人工智能不能公平服务所有语言 — 等级 B2 — a wooden table topped with scrabble tiles that spell out languages

人工智能不能公平服务所有语言CEFR B2

2026年4月8日

改编自 Aaron Spitler, Global Voices CC BY 3.0

照片: Ling App, Unsplash

等级 B2 – 中高级
5 分钟
249

随着大型语言模型(LLM)在日常应用中广泛使用,很多不讲英语的人没有从中受益,变得更难获得可靠的自动化帮助。斯坦福以人为本人工智能研究所(HAI)在2025年的论文指出,许多流行模型在非英语语言上的表现明显较差,而线上世界和训练数据又以英语为主。

这种偏差部分源于 AI 公司和数据集集中于硅谷等富裕地区,使得资源匮乏语言被边缘化。媒体报道提供了具体例子:Wired 提到让模型用泰米尔语写电子邮件时常出现夹杂英语的草稿;MIT Technology Review 发现,从网络抓取的低资源语言文本里有大量机器翻译错误,而这些内容又被用作训练数据,导致错误被放大。

文化层面同样重要;The Atlantic 等媒体警告,AI 输出往往反映资源充足国家中英语使用者的规范与价值观,从而使非英语视角在普遍使用的工具里隐形。观察者认为,科技界“先行后问”的做法在 AI 时代继续存在,进一步加剧不公平。

为此,专家和评论员提出具体补救措施:

  • 与本地社区和草根 AI 领导者合作,纳入当地意见。
  • 验证并清理多语言训练数据,减少机器翻译错误。
  • 审查模型输出的准确性与真实性,建立尊重文化差异的合作伙伴关系。

难词

  • 大型语言模型能生成或理解大量文本的人工智能模型
  • 低资源语言可用于训练和网络文本很少的语言
  • 机器翻译错误机器自动翻译时产生的不正确内容
  • 边缘化被排除或忽视在主要资源之外
    被边缘化
  • 夹杂把不同语言或内容混在一起
    夹杂英语
  • 审查检查内容是否准确和可靠

提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。

讨论问题

  • 与本地社区和草根 AI 领导者合作,具体可以做哪些步骤来改进非英语语言的模型服务?请举一两个例子并说明理由。
  • 清理多语言训练数据时可能遇到哪些困难?这些困难会如何影响模型的结果?
  • 除了文章提到的措施,你认为科技公司还可以怎样减少文化偏见并尊重不同语言的价值观?请给出理由或实例。

相关文章