📖+20 XP
🎧+15 XP
✅+25 XP
等级 A2 – 基础CEFR A2
3 分钟
132 字
斯坦福以人为本人工智能研究所(HAI)在2025年发现,许多流行的大型语言模型(LLM)在非英语语言上的表现较差。这意味着不会英语的人群没有同样的 AI 帮助。
线上世界以英语为主,模型开发者常以英语数据为基础。有报道说,讲库尔德语和斯瓦希里语的人因此被排在次要位置。Wired 的报道也提到,要求模型用泰米尔语写邮件时,结果常混杂英语。
有些增加多语言数据的做法反而带来错误,因为抓取的低资源语言文本里有很多机器翻译错误。专家建议企业应与本地社区合作,检验数据和结果,并尊重文化差异。
难词
- 大型语言模型 — 可以理解和生成语言的电脑系统
- 混杂 — 不同语言或内容混在一起
- 抓取 — 从网上收集文本或资料
- 低资源语言文本 — 网上可用材料很少的语言的文字
- 检验 — 检查数据或结果是否正确
- 文化差异 — 不同群体在习惯和价值上的不同
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你会不会因为 AI 在你的语言上表现不好而感到担心?为什么?
- 你觉得企业与本地社区合作时可以做哪些事情来改进数据?
- 如果你用 AI 写邮件,你更愿意用哪种语言?为什么?