北卡研究：让大型语言模型更安全 (中文, 等级 B2)

北卡罗来纳州立大学的研究人员针对大型语言模型（LLM）的安全对齐进行了系统研究。论文通讯作者金正恩指出，研究目标是避免模型提供可能被用来伤害他人的信息。团队同时指出两大挑战：一是安全训练可能降低模型性能，即所谓的“对齐成本”；二是许多模型采用表面化的安全检查，容易被用户绕过。

第一作者李建伟给出例子说明表面化对齐的问题：模型在早期就把请求标为安全或不安全，因此用户通过改变表述有时能得到不安全信息。基于这种观察，研究者提出“表面化安全对齐假设”（SSAH），并在模型中定位出影响决策的具体神经组件。

研究团队证明，在微调时冻结这些与安全相关的关键神经元，可以在学习新领域任务时保留原有的安全行为，从而降低对齐成本。团队强调需要让模型在生成回答的整个过程中重新评估安全性。相关研究将在 ICLR2026 发表，代码和更多信息见研究主页。

难词

安全对齐 — 让模型遵守安全规则

对齐成本 — 为安全而牺牲的性能

表面化 — 只在表面看的检查

关键神经元 — 影响决策的重要单元

冻结 — 训练时不更新某部分

微调 — 在已有模型上小规模训练

重新评估 — 再次检查是否安全或合适

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。

讨论问题

你认为在微调时冻结关键神经元对模型长期发展有何利弊？请说明理由。

表面化的安全检查容易被绕过，这对用户安全有什么潜在风险？你会如何改进？

研究提出要让模型在生成过程中重新评估安全性。你认为这样做在实际应用中会带来哪些技术或使用上的挑战？

芝加哥大学的研究发现，训练方法影响大型语言模型在四位数乘法上的表现。采用隐式思维链训练的模型能记住中间结果并达到很高的准确率。

等级

密苏里大学的研究人员测试一种人工智能工具，用皮肤异常图像帮助识别黑色素瘤。研究把三种模型结合后准确率超过92%，该工具被设为医生的决策支持。

等级

耶鲁大学研究发现两项与纤维化相关的重要结果：一种针对 epiregulin 的人源单克隆抗体可减少纤维化标志物；另有研究揭示 EGFR 激活后通过 STAT1 促进纤维化。

等级

一个国际研究团队提出公式，解释藤本如何搜索并附着在树木等寄主上。他们用普通豆类藤本研究伸长、定向运动和特化接触细胞，并发现与 G-纤维和基因 XTH5 相关的机制。

等级

一项研究发现，广泛可得的生成型人工智能（如 ChatGPT、Claude、LLaMa）能从人们的日常语言中预测个性、行为和情绪，AI 给出的评分与自评高度一致，有时优于亲友判断。

等级

北卡研究：让大型语言模型更安全^{CEFR B2}