LingVo.club用于阅读和听力练习的短篇小说

📖+40 XP

🎧+25 XP

✅+45 XP

大脑预测语言：不只是下一个词 (等级 B2) — a close up of a piece of luggage with text on it

大脑预测语言：不只是下一个词^{CEFR B2}

2026年4月21日

等级A1

改编自 James Devitt-NYU, Futurity • CC BY 4.0

照片： Google DeepMind, Unsplash

等级 B2 – 中高级CEFR B2

6 分钟

311 字

许多人用大型语言模型的工作方式来比照人类在听或读时的语言处理能力，因为这些模型通常通过预测下一个词来训练和优化。Nature Neuroscience 发布的新研究表明，人类大脑在做语言预测时并不只是简单地预测下一个词，而是按语法把词分组为成分或短语，从而对更大单位进行预测。

该研究在以普通话为母语的受试者中采用脑磁图（MEG）记录大脑活动，并用完形填空测试评估行为反应。团队还分析了接受英语刺激的病人的脑数据，以检验结果是否跨语言稳定。研究人员使用大型语言模型来衡量词语的可预测性，计算了熵（表示上下文允许多种后续词）和惊异度（表示某词在当前上下文中是否出人意料），例如“我看到一只……”与“我坐在一……”后续词的差别。

研究比较了大脑反应与模型预测的相关性。若大脑像这些模型那样工作，相关性应普遍较高；但结果显示脑活动更多取决于词在语法结构中的位置，这说明预测过程对成分结构敏感。合著者 David Poeppel 指出，人类大脑通过把词在语法上分组为短语来进行预测，而大型语言模型在训练目标上更侧重下一个词的概率。

研究得出结论：人类的语言预测是由语法组织的片段平衡调节，而不仅仅由下一个词的概率决定。这一发现表明现有模型与大脑处理之间存在差异，并提出了关于两者关系的新问题。

方法：MEG 脑活动记录
行为：完形填空测试
跨语种检验：英语病人数据

难词

大型语言模型 — 用大量文本训练的模型
预测 — 预先判断可能发生的内容
预测过程
成分 — 句子中的语法单元
成分结构
熵 — 表示后续选择不确定性的量
惊异度 — 表示词在上下文中意外程度
脑磁图 — 记录并测量大脑磁场活动
脑磁图（MEG）
相关性 — 两个事物之间的联系程度

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。

1. 研究表明人类大脑在语言预测时主要怎样工作？
2. 研究中用哪种方法记录了受试者的大脑活动？
3. 研究人员用大型语言模型衡量词语可预测性时计算了哪些指标？
4. 为了检验结果是否跨语言稳定，研究团队做了什么？

讨论问题

研究发现大脑按语法把词分组进行预测。你认为这对改进大型语言模型有什么启示？请说明两点。
研究同时使用普通话受试者和英语病人数据。你认为跨语种检验为什么重要？请给出理由。
把词按语法成分来预测可能如何影响语言教学或阅读练习？举一两个具体例子说明。

相关文章

哥本哈根展示四种AI工具，或改变结核病检测与监测 (等级 B2)

2025年11月27日

哥本哈根展示四种AI工具，或改变结核病检测与监测

11月18日至21日在哥本哈根的会议上，研究人员展示了四种新的人工智能工具，用于结核病的检测与监测。专家认为这些工具有希望，但还需更广泛验证。

等级

人工智能不能公平服务所有语言 (等级 B2)

2026年4月8日

人工智能不能公平服务所有语言

斯坦福 HAI 的研究发现，许多流行大型语言模型在非英语语言上表现较差。在线世界以英语为主，这使库尔德语、斯瓦希里语等语言的使用者面临误导性或无用的 AI 输出。

等级

炎症高的人更常用社交媒体 (等级 B2)

2026年4月20日

炎症高的人更常用社交媒体

布法罗大学的研究发现，炎症水平较高的人更倾向通过社交媒体而不是面对面交流。研究用C反应蛋白测量炎症，并结合手机屏幕使用时间来分析社交行为。

等级

技术如何改变哥伦比亚的武装冲突 (等级 B2)

2026年4月25日

技术如何改变哥伦比亚的武装冲突

人工智能和更易获得的技术正在重塑哥伦比亚长期的武装冲突。武装团体用改装无人机发动袭击，政府从2025年起建设反无人机系统并用算法辅助安全部署，同时面对数字操控问题。

等级

无需电池的超声标签用于智能家居 (等级 B2)

2026年4月29日

无需电池的超声标签用于智能家居

佐治亚理工学院的研究人员开发了一种极小、无需电池的金属标签。标签被触碰时产生短促的超声信号，可被附近的穿戴设备检测，用于活动识别和多种家居应用。

等级