📖+40 XP
🎧+25 XP
✅+45 XP
等级 B2 – 中高级CEFR B2
5 分钟
249 字
随着大型语言模型(LLM)在日常应用中广泛使用,很多不讲英语的人没有从中受益,变得更难获得可靠的自动化帮助。斯坦福以人为本人工智能研究所(HAI)在2025年的论文指出,许多流行模型在非英语语言上的表现明显较差,而线上世界和训练数据又以英语为主。
这种偏差部分源于 AI 公司和数据集集中于硅谷等富裕地区,使得资源匮乏语言被边缘化。媒体报道提供了具体例子:Wired 提到让模型用泰米尔语写电子邮件时常出现夹杂英语的草稿;MIT Technology Review 发现,从网络抓取的低资源语言文本里有大量机器翻译错误,而这些内容又被用作训练数据,导致错误被放大。
文化层面同样重要;The Atlantic 等媒体警告,AI 输出往往反映资源充足国家中英语使用者的规范与价值观,从而使非英语视角在普遍使用的工具里隐形。观察者认为,科技界“先行后问”的做法在 AI 时代继续存在,进一步加剧不公平。
为此,专家和评论员提出具体补救措施:
- 与本地社区和草根 AI 领导者合作,纳入当地意见。
- 验证并清理多语言训练数据,减少机器翻译错误。
- 审查模型输出的准确性与真实性,建立尊重文化差异的合作伙伴关系。
难词
- 大型语言模型 — 能生成或理解大量文本的人工智能模型
- 低资源语言 — 可用于训练和网络文本很少的语言
- 机器翻译错误 — 机器自动翻译时产生的不正确内容
- 边缘化 — 被排除或忽视在主要资源之外被边缘化
- 夹杂 — 把不同语言或内容混在一起夹杂英语
- 审查 — 检查内容是否准确和可靠
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 与本地社区和草根 AI 领导者合作,具体可以做哪些步骤来改进非英语语言的模型服务?请举一两个例子并说明理由。
- 清理多语言训练数据时可能遇到哪些困难?这些困难会如何影响模型的结果?
- 除了文章提到的措施,你认为科技公司还可以怎样减少文化偏见并尊重不同语言的价值观?请给出理由或实例。