等级 B1 – 中级CEFR B1
4 分钟
184 字
一项发表在 PLOS One 的研究探讨了 AI 是否能像儿童那样通过观察学习文化价值观。研究者用两组不同文化背景成年人的行为数据训练 AI 代理,训练方法是逆向强化学习(IRL),即让 AI 观察人类行为并推断驱动这些行为的目标和回报。
主要实验使用改编的游戏 Overcooked:玩家在自己的厨房做洋葱汤,同时可见另一名玩家的厨房,那名玩家走得更远才完成任务。参与者不知道第二名玩家其实是会请求帮助的机器人。玩家可以把洋葱分给对方,但这样会减少自己送出的汤数。实验结果显示,一方参与者更倾向于帮助,训练自该组数据的 AI 代理也表现出相同倾向。
研究者指出,不应把一套普世价值硬编码进 AI,而应通过增加文化特定数据、多样性和部署前微调来改善系统的文化敏感性,并且需要对更多文化群体和现实世界问题做进一步测试。
难词
- 逆向强化学习 — 从人类行为推断目标的学习方法
- 代理 — 代表人或系统执行任务的程序AI 代理
- 推断 — 根据已有信息估计或判断情况
- 驱动 — 促使行为发生的原因或力量
- 观察学习 — 通过看别人做事学会新行为
- 部署 — 把系统安装并投入使用的过程部署前微调
- 微调 — 在投入使用前做的小幅改进部署前微调
- 文化敏感性 — 理解并尊重不同文化差异
- 普世价值 — 被广泛认为适用于多数人的价值观念
- 多样性 — 包含不同背景或类型的情况
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 文章提到增加文化特定数据和多样性。你认为为什么这些做法重要?请说两点理由。
- 如果你是实验中的玩家,你会把洋葱分给对方吗?请说明你的决定和原因。
- 研究者说不应把一套普世价值硬编码进 AI。你同意吗?有什么可行的替代办法?