等级 B1 – 中级CEFR B1
4 分钟
194 字
一项由芝加哥大学白晓雁和谭晨皓领导的团队,与麻省理工学院、哈佛大学、滑铁卢大学和Google DeepMind的合作者一起,研究了大型语言模型为何难以完成两个四位数的乘法。
研究对比了标准微调和隐式思维链(Implicit Chain of Thought,ICoT)。在标准微调下,2到12层的模型在四位数乘法上的准确率低于1%,研究人员认为这些模型学会了表面模式,但没有形成保存中间数值的机制。
使用ICoT训练的模型则达到100%准确率。研究者从模型的隐藏状态解码出“运行和”,并观察到注意力在时间维度上分路:早期层计算并存储位对乘积,后期层检索这些值构成最终答案。团队还用一个简单的训练目标,让模型在每一步跟踪运行和,结果把一个2层模型的准确率提高到99%。
研究强调,单靠放大数据或参数不能解决所有问题,有针对性的架构引导和训练目标有助于多步推理。
难词
- 微调 — 在已有模型上继续训练
- 隐式思维链 — 模型内部不直接输出的推理步骤
- 隐藏状态 — 模型内部用于表示信息的向量
- 注意力 — 模型集中处理重要信息的机制
- 运行和 — 计算过程中持续累加的部分结果
- 训练目标 — 训练时模型需要优化的具体任务
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你认为让模型在每一步记录中间结果对解决复杂问题是否有帮助?为什么?
- 在实际应用中,你会更信任通过放大参数得到的模型,还是通过有针对性训练目标得到的模型?请说明理由。
- 请举一个日常生活中需要多步推理的例子,说明模型跟踪中间结果会怎样帮助完成这个任务。