📖+40 XP
🎧+25 XP
✅+45 XP
等级 B2 – 中高级CEFR B2
5 分钟
259 字
布朗大学的研究团队在巴西里约内卢举行的国际学习表征会议上发表了这项工作。博士生Michael Lepori指出,“有一些证据表明语言模型编码了类似现实世界因果约束的东西”,并补充说模型以能够预测人类判断的方式编码这些约束。
研究设计了一个实验,向模型呈现不同合理性的句子,例如“有人用冰冷却饮料”、“有人用雪冷却饮料”、“有人用火冷却饮料”以及荒谬的“有人用昨天冷却饮料”。研究者采用机制可解释性(mechanistic interpretability)的方法,检查模型产生的内部数学状态,这类似于用神经科学方法逆向工程人工智能的“脑状态”。
实验在若干开源模型上进行,包括OpenAI 的 GPT-2、Meta 的 Llama 3.2 和 Google 的 Gemma 2。结果显示,足够大的模型会形成与合理性类别相对应的不同内部向量,且这些向量能区分相近类别(例如将“不太可能”与“不可能”区分开),准确率约为85%。这些向量还反映了人类的模糊不确定性。研究人员报告说,这类向量在超过20亿参数的模型中开始出现,而与当今万亿级参数模型相比,这一规模仍很小。
- 机制可解释性揭示模型内部所编码的内容。
- 内部向量对应人类的合理性判断与不确定性。
- 这些发现有助于开发更智能、更值得信赖的模型。
难词
- 表征 — 把外界信息转成内部表示
- 因果约束 — 关于事物因果关系的限制
- 机制可解释性 — 分析模型内部如何运作的方法
- 内部向量 — 模型内部以向量形式存在的信息
- 模糊不确定性 — 判断时存在的含糊和不确定情况
- 逆向工程 — 从结果推测系统内部结构的方法
- 参数 — 决定模型行为的可调节数值
- 准确率 — 模型预测或分类正确的比例
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 机制可解释性揭示模型内部内容,你认为这种研究对模型安全和可信有什么影响?请说明理由。
- 研究指出向量在超过20亿参数时出现。你觉得这对小型模型和大型模型的开发意味着什么?
- 模型能够反映人类的模糊不确定性,这在实际应用(例如自动决策)中有哪些利与弊?请举例说明。