等级 A2 – 基础CEFR A2
2 分钟
112 字
研究人员用两组不同文化背景的成年人数据训练 AI。AI 通过观察人类行为来学习他们的目标和回报,这种方法叫逆向强化学习(IRL)。
主要实验里,参与者玩改编的烹饪游戏 Overcooked。在游戏中,玩家可以把洋葱给另一个玩家以帮助对方,但这样会减少自己做出的汤数。研究发现,一组参与者比另一组更常提供帮助,训练自该组数据的 AI 也更倾向帮助。
研究者建议增加文化特定的数据和多样性,并在部署前进行微调,以提高 AI 的文化敏感性。
难词
- 逆向强化学习(IRL) — 通过观察人类行为学习目标的方法
- 回报 — 行为带来的结果或获得的奖励
- 倾向 — 更可能做某事的偏好或趋势
- 微调 — 对模型做小幅改动以改进表现
- 部署 — 把系统或模型放到实际使用中
- 文化特定 — 属于某一文化的特点或相关数据
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你在团队工作或游戏中会帮助别人吗?为什么或为什么不?
- 你觉得为什么不同文化的人帮助的频率会不同?
- 如果你是研究者,你会如何收集不同文化的数据?