📖+30 XP
🎧+20 XP
✅+35 XP
等级 B1 – 中级CEFR B1
3 分钟
178 字
研究显示,人工智能工具快速普及,但许多不讲英语的人并未从中受益。斯坦福以人为本人工智能研究所(HAI)在2025年的论文指出,多数流行的大型语言模型(LLM)在非英语语言上的表现较差。
造成这种差距的原因包括线上世界以英语为主、模型开发常依赖英语数据,以及 AI 公司和数据集集中在硅谷等富裕地区,从而加剧数字鸿沟。媒体报道称,数以百万计讲库尔德语和斯瓦希里语的人被置于次要地位。
实际案例显示问题很明显:Wired 报道说,用模型写泰米尔语电子邮件时,输出可能夹杂英语;MIT Technology Review 发现在网络抓取的低资源语言文本中存在大量机器翻译错误。专家建议企业在构建 LLM 时应与被边缘化社区和草根 AI 领导者合作,验证输出准确性,并建立尊重文化差异的合作关系。
难词
- 普及 — 在社会中广泛使用或传播
- 受益 — 从某事中得到好处
- 大型语言模型 — 能处理大量语言数据的计算模型
- 数字鸿沟 — 不同群体在数字方面的差距
- 低资源语言 — 网上或数据集很少的语言
- 验证 — 检查某事是否正确或可靠
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你认为在你的生活中有没有人因为语言问题无法方便使用 AI 工具?为什么?
- 文章提到要与被边缘化社区合作,你觉得这种合作应包含哪些具体做法?
- 如果一家 AI 公司要改进低资源语言的表现,你认为他们首先应该做什么?