等级 A2 – 基础CEFR A2
2 分钟
99 字
芝加哥大学的研究团队与其他研究机构合作,研究为什么最先进的大型语言模型在四位数乘法上表现不好。研究者比较了标准微调和一种叫隐式思维链(ICoT)的训练方法。
他们发现标准微调的模型很难保存中间数值,准确率很低。采用ICoT训练的模型能在内部编码“运行和”,并能把早期计算存起来,后面再用来得到正确答案。研究还表明,在训练目标中让模型每步跟踪运行和,也能显著提高准确率。
难词
- 大型语言模型 — 处理大量文字的人工智能
- 微调 — 在模型上做进一步训练标准微调
- 隐式思维链 — 模型内部的推理或思路步骤隐式思维链(ICoT)
- 中间数值 — 计算过程中暂时的数字
- 编码 — 把信息变成模型能用的形式
- 准确率 — 回答或结果正确的比率
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 你觉得模型能保存中间数值重要吗?为什么?
- 你更倾向于哪种训练方法:标准微调还是隐式思维链?请说一个理由。