大脑预测语言：不只是下一个词 (中文, 等级 B1)

很多人把大型语言模型（即常用于预测下一个词的系统）与人类语言处理进行比较。发表在 Nature Neuroscience 的这项研究提出，人类大脑在预测语言时，不只是预测一个接下来的词，而是使用由语法组织的更大单元（成分或短语）。

研究包括以普通话为母语的受试者，使用脑磁图记录大脑活动，并进行了完形填空（Cloze）行为测试。研究团队还分析了来自接受英语刺激的病人的额外脑数据，以验证这些发现的跨语言性。研究者用大型语言模型来衡量词语的可预测性，计算了熵和惊异度，并用实例说明这两个量的含义。

研究比较了大脑对词语的反应与模型对相同句子的预测。结果显示，大脑对词语的反应取决于该词在语法结构中的位置，表明预测时对成分结构有敏感性，而非仅依据下一个词的概率。研究结论认为，人类语言预测由语法组织的片段平衡调节，模型并未表现出同样的敏感性。

难词

大型语言模型 — 用来预测下一个词的计算系统

预测 — 对将来出现内容做出估计或判断

预测时

成分 — 句子中按语法组织的单位

短语 — 由两个或更多词组成的语法单位

脑磁图 — 记录大脑磁场活动的一种测量方法

熵 — 表示一种不确定程度的数学量

惊异度 — 衡量某词出现意外程度的数值

敏感性 — 对某种信息或变化的反应程度

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。

讨论问题

你有没有注意过自己在听或说时会预测下一个词？请举一个例子说明。

研究使用脑磁图记录大脑活动，你觉得这种方法在研究语言时有什么优点或缺点？

如果让模型也考虑语法成分而不是只预测下一个词，你认为模型会有什么不同？为什么？

非洲猪瘟继续威胁菲律宾的养猪业和粮食安全。政府推出多项检测与现场诊断工具，但自越南进口的AVAC疫苗因安全性和试验数据问题引发专家与养猪户争议。

等级

一项发表在 Chemical Engineering Journal 的试点研究提出，在厌氧消化前对污泥进行高温高压预处理并加入少量氧气，可产生更多可再生天然气并大幅降低处置成本，同时用新菌株提高甲烷纯度。

等级

研究人员开发出一种基于生物发光的新型分子工具CaBLAM。该工具可在无需外部光照的情况下，高速捕捉小鼠和斑马鱼活体脑细胞的钙信号，并能连续记录数小时。

等级

研究团队用一种名为MITE的新计算工具，重建了小鼠视交叉上核的细胞连接，发现少数高度连接的枢纽细胞对网络同步性至关重要。该发现可能帮助校准生物钟。

等级

加州大学河滨分校的研究提出，通过检测白蚁粪粒中微生物和其DNA变化，可以区分新鲜和陈旧粪粒。该方法可发展为现场快速检测工具，帮助判断侵害时间并减少不必要处理。

等级

大脑预测语言：不只是下一个词^{CEFR B1}