隐式思维链让模型能做四位数乘法 — 中文等级 B1

一项由芝加哥大学白晓雁和谭晨皓领导的团队，与麻省理工学院、哈佛大学、滑铁卢大学和Google DeepMind的合作者一起，研究了大型语言模型为何难以完成两个四位数的乘法。

研究对比了标准微调和隐式思维链（Implicit Chain of Thought，ICoT）。在标准微调下，2到12层的模型在四位数乘法上的准确率低于1%，研究人员认为这些模型学会了表面模式，但没有形成保存中间数值的机制。

使用ICoT训练的模型则达到100%准确率。研究者从模型的隐藏状态解码出“运行和”，并观察到注意力在时间维度上分路：早期层计算并存储位对乘积，后期层检索这些值构成最终答案。团队还用一个简单的训练目标，让模型在每一步跟踪运行和，结果把一个2层模型的准确率提高到99%。

研究强调，单靠放大数据或参数不能解决所有问题，有针对性的架构引导和训练目标有助于多步推理。

难词

微调 — 在已有模型上继续训练

隐式思维链 — 模型内部不直接输出的推理步骤

隐藏状态 — 模型内部用于表示信息的向量

注意力 — 模型集中处理重要信息的机制

运行和 — 计算过程中持续累加的部分结果

训练目标 — 训练时模型需要优化的具体任务

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。

讨论问题

你认为让模型在每一步记录中间结果对解决复杂问题是否有帮助？为什么？

在实际应用中，你会更信任通过放大参数得到的模型，还是通过有针对性训练目标得到的模型？请说明理由。

请举一个日常生活中需要多步推理的例子，说明模型跟踪中间结果会怎样帮助完成这个任务。

研究用神经影像分析大脑的结构与功能，检验“网络神经科学理论”。结果显示，一般智力来自分布式网络的协调与长距离通信，而非单一脑区。

等级

印度多地出现农作物减产，原因包括非季节性降雨、害虫、污染和土地退化。收割延误与仓储短缺导致腐烂和霉菌毒素问题，专家呼吁改进监测与政策支持。

等级

研究发现，乌干达Ngogo黑猩猩群体通过杀死邻近群体扩大领地后，出生数和幼仔存活率显著上升，但研究者提醒这种改善是短期的，不应简单类比人类。

等级

Leamos 是由 Benjamedn Edwards 发起的阅读小组，2024 年 9 月开始。小组每周在线聚会，成员分享书籍、讨论想法，并开展线下见面和播客活动。

等级

一项由亚利桑那大学领导的新研究发现，常用的 PHQ 抑郁筛查问卷中“被……困扰”与症状频率的措辞可能被不同理解。研究建议把频率与主观困扰分开提问并进一步检验。

等级

隐式思维链让模型能做四位数乘法^{CEFR B1}