等级 B1 – 中级CEFR B1
4 分钟
184 字
一项发表在 PLOS One 的研究探讨了 AI 是否能像儿童那样通过观察学习文化价值观。研究者用两组不同文化背景成年人的行为数据训练 AI 代理,训练方法是逆向强化学习(IRL),即让 AI 观察人类行为并推断驱动这些行为的目标和回报。
主要实验使用改编的游戏 Overcooked:玩家在自己的厨房做洋葱汤,同时可见另一名玩家的厨房,那名玩家走得更远才完成任务。参与者不知道第二名玩家其实是会请求帮助的机器人。玩家可以把洋葱分给对方,但这样会减少自己送出的汤数。实验结果显示,一方参与者更倾向于帮助,训练自该组数据的 AI 代理也表现出相同倾向。
研究者指出,不应把一套普世价值硬编码进 AI,而应通过增加文化特定数据、多样性和部署前微调来改善系统的文化敏感性,并且需要对更多文化群体和现实世界问题做进一步测试。
难词
- 逆向强化学习 — 从人类行为推断目标的学习方法
- 代理 — 代表人或系统执行任务的程序AI 代理
- 推断 — 根据已有信息估计或判断情况
- 驱动 — 促使行为发生的原因或力量
- 观察学习 — 通过看别人做事学会新行为
- 部署 — 把系统安装并投入使用的过程部署前微调
- 微调 — 在投入使用前做的小幅改进部署前微调
- 文化敏感性 — 理解并尊重不同文化差异
- 普世价值 — 被广泛认为适用于多数人的价值观念
- 多样性 — 包含不同背景或类型的情况
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
相关文章
2025年7月1日
国际雷鬼日:气候正义与米娅·莫特利获奖
国际雷鬼日第31年以“一爱、一声、一日”为主题,强调气候正义与环境保护。节日公布温妮·曼德拉人道主义奖得主为巴巴多斯总理米娅·莫特利,并在全球多地举行庆祝活动。
2025年10月20日
2025年12月9日
2025年2月5日
2025年12月18日
2025年12月1日