脳は文法のまとまりで語を予測する — 日本語レベル B2

Nature Neuroscience に掲載された研究は、聴覚や読解時の言語予測に関して、人間の脳が次語確率だけでなく文法的な塊（構成要素）に基づいて予測を行っていることを示します。研究者たちは、脳が単一の次語を逐語的に予測するだけでは説明できないパターンを観察しました。

実験は標準中国語話者を対象に複数の課題で行われ、脳活動は脳磁図（MEG）で記録されました。行動的にはClozeテストを使って参加者に語を補完してもらい、並行して大規模言語モデル（LLM）からエントロピーと驚き（surprisal）の値を算出しました。エントロピーは文脈が許す次の語の幅を示し、驚きはその語がどれだけ予期されにくいかを表します。

脳データとLLM予測を同一文で比較したところ、もし脳がLLMと同じ処理をしていれば相関は均一に高くなるはずです。しかし語が文法構造内で占める位置によって脳反応は変わり、構成要素への感受性が示されました。研究はまた、英語に暴露された患者の追加脳データも解析し、言語を越えた傾向を検討しました。

結論として、ヒトの予測は次語確率だけではなく文法的に組織された塊によって調整されており、研究は脳の言語処理と計算モデル（LLM）がどのように関連するかという新たな疑問を提起しています。共著者のデイビッド・ポープルは、LLMが次語予測に特化している一方で人間は語を文法的にグループ化して予測する、と説明しています。

難しい単語

言語予測 — 聞いたり読んだりして内容を先に予想すること

次語確率 — ある語が次に現れる確率の大きさ

構成要素 — 文の中の文法的な語のまとまり

脳磁図 — 脳の磁場を測定する記録方法（MEG）

脳磁図（MEG）

エントロピー — 文脈で許される次語の範囲の広さ

驚き — ある語がどれほど予期されにくいかの度合い

驚き（surprisal）

大規模言語モデル — 大量データで言語を学ぶ計算モデル

大規模言語モデル（LLM）

ヒント：記事中の強調表示された単語にマウスオーバー／フォーカス／タップすると、その場で簡単な意味が表示されます。