📖+30 XP
🎧+20 XP
✅+35 XP
等级 B1 – 中级CEFR B1
3 分钟
154 字
这项工作由布朗大学的研究团队完成,并在国际学习表征会议上发表。领导该研究的博士生Michael Lepori表示,研究发现语言模型在内部编码了类似现实世界因果约束的东西,并且这些编码能预测人类判断。
为检验这一点,团队向模型呈现了描述不同合理性的句子,例如“有人用冰冷却饮料”、“有人用雪冷却饮料”、“有人用火冷却饮料”和荒谬的“有人用昨天冷却饮料”。研究使用机制可解释性方法,检查模型产生的内部数学状态。
实验在若干模型上进行,包括GPT-2、Llama 3.2和Gemma 2。研究发现,足够大的模型会形成与合理性类别相对应的内部向量,这些向量能区分相近类别,准确率约为85%。这些发现有助于开发更智能、更值得信赖的模型。
难词
- 研究 — 调查或实验以获得新知识研究团队, 该研究, 研究发现, 研究使用
- 编码 — 把信息变成可表示的符号编码了, 这些编码
- 因果约束 — 关于原因和结果的限制
- 可解释性 — 能被人理解和解释的性质机制可解释性方法
- 向量 — 表示数值或特征的数组内部向量, 这些向量
- 合理性 — 符合常识或逻辑的性质不同合理性的句子, 合理性类别
- 准确率 — 结果正确的比例或概率
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你认为这些研究发现对开发更智能、更值得信赖的模型有什么帮助?请说两点理由。
- 如果模型能预测人类判断,你会在生活中怎样使用这样的模型?举一两个例子。
- 研究在若干不同模型上做实验,你觉得测试多种模型有什么好处?