等级 A2 – 基础CEFR A2
2 分钟
112 字
研究人员用两组不同文化背景的成年人数据训练 AI。AI 通过观察人类行为来学习他们的目标和回报,这种方法叫逆向强化学习(IRL)。
主要实验里,参与者玩改编的烹饪游戏 Overcooked。在游戏中,玩家可以把洋葱给另一个玩家以帮助对方,但这样会减少自己做出的汤数。研究发现,一组参与者比另一组更常提供帮助,训练自该组数据的 AI 也更倾向帮助。
研究者建议增加文化特定的数据和多样性,并在部署前进行微调,以提高 AI 的文化敏感性。
难词
- 逆向强化学习(IRL) — 通过观察人类行为学习目标的方法
- 回报 — 行为带来的结果或获得的奖励
- 倾向 — 更可能做某事的偏好或趋势
- 微调 — 对模型做小幅改动以改进表现
- 部署 — 把系统或模型放到实际使用中
- 文化特定 — 属于某一文化的特点或相关数据
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
相关文章
2025年9月27日
2025年12月15日
电子游戏帮助小学生练习科学技能
佐治亚大学的研究人员开发了名为“Virtual Vet”的教育游戏,让小学生在扮演兽医助理的情境中练习解剖学、健康和基于证据的推理。研究显示玩游戏的孩子成绩高于传统课堂学习者。
2023年11月29日
2025年12月5日
父母态度与大学生暴饮暴食和希腊联谊会加入
一项发表在《Behavioral Sciences》的研究发现,父母在学生入学前和入学第一年更宽容的饮酒态度,与学生加入兄弟会或姐妹会以及发生暴饮暴食的可能性有关。研究建议开展面向父母的教育项目。
2025年6月2日
2025年12月8日
拉丁美洲用人工智能扩展青年性与生殖健康服务
拉丁美洲的卫生组织和研究人员正在利用人工智能,向青年和弱势群体提供性与生殖健康信息。项目在秘鲁和阿根廷试点,并同时面对语言障碍、偏见和数据伦理等挑战。