作者身份如何影响大型语言模型的评估 — 中文等级 B2

苏黎世大学的研究由 Federico Germani 和 Giovanni Spitale 主导，规模和方法都相当明确。研究让四款广泛使用的大型语言模型——OpenAI o3-mini、Deepseek Reasoner、xAI Grok 2 和 Mistral——各自生成50条关于24个有争议话题的叙述性陈述，话题包括疫苗强制、地缘政治和气候变化政策。研究团队随后要求这些模型在不同条件下对同一文本进行评估，收集了192'000次评估用于分析。

在没有作者信息的情况下，模型间总体一致率超过90%，研究者由此指出没有“大型语言模型之间的意识形态之争”，并认为媒体对“AI 民族主义”的担忧似乎被夸大。然而，在为文本加入虚构作者身份后，隐藏偏见变得明显：多模型的一致性急剧下降，尤其是普遍存在的反华偏见，即使论点合乎逻辑并写得很好也会受影响。

研究还发现两点重要趋势：一是把作者标为“来自中国的人”会显著降低各模型与文本内容的一致度；二是多数模型更倾向于信任人类作者而不是其他 AI，认为由另一款 AI 撰写时一致评分略低。研究者警告，这些偏见可能影响内容审核、招聘、学术评审和新闻工作等实际应用，并建议通过增加透明性和治理，把大型语言模型用作辅助推理的工具，而非裁判。该研究发表在 Sciences Advances，消息来源为 University of Zurich。

难词

一致率 — 不同主体意见相同的比例

意识形态 — 政治或社会观点的体系

意识形态之争

偏见 — 对某群体不公正的看法

隐藏偏见, 反华偏见

一致性 — 多个判断相同或相近的程度

内容审核 — 检查并决定是否发布内容

学术评审 — 对研究或论文的专业评价

透明性 — 信息或过程易被公众理解

治理 — 管理公共事务或组织的方式

辅助推理 — 帮助做出复杂判断的过程