LingVo.club
等级
隐式思维链让模型能做四位数乘法 — 等级 B1 — brown wooden blocks on white surface

隐式思维链让模型能做四位数乘法CEFR B1

2025年12月29日

改编自 U. Chicago, Futurity CC BY 4.0

照片: Brett Jordan, Unsplash

等级 B1 – 中级
4 分钟
194

一项由芝加哥大学白晓雁和谭晨皓领导的团队,与麻省理工学院、哈佛大学、滑铁卢大学和Google DeepMind的合作者一起,研究了大型语言模型为何难以完成两个四位数的乘法。

研究对比了标准微调和隐式思维链(Implicit Chain of Thought,ICoT)。在标准微调下,2到12层的模型在四位数乘法上的准确率低于1%,研究人员认为这些模型学会了表面模式,但没有形成保存中间数值的机制。

使用ICoT训练的模型则达到100%准确率。研究者从模型的隐藏状态解码出“运行和”,并观察到注意力在时间维度上分路:早期层计算并存储位对乘积,后期层检索这些值构成最终答案。团队还用一个简单的训练目标,让模型在每一步跟踪运行和,结果把一个2层模型的准确率提高到99%。

研究强调,单靠放大数据或参数不能解决所有问题,有针对性的架构引导和训练目标有助于多步推理。

难词

  • 微调在已有模型上继续训练
  • 隐式思维链模型内部不直接输出的推理步骤
  • 隐藏状态模型内部用于表示信息的向量
  • 注意力模型集中处理重要信息的机制
  • 运行和计算过程中持续累加的部分结果
  • 训练目标训练时模型需要优化的具体任务

提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。

讨论问题

  • 你认为让模型在每一步记录中间结果对解决复杂问题是否有帮助?为什么?
  • 在实际应用中,你会更信任通过放大参数得到的模型,还是通过有针对性训练目标得到的模型?请说明理由。
  • 请举一个日常生活中需要多步推理的例子,说明模型跟踪中间结果会怎样帮助完成这个任务。

相关文章