作者身份如何影响大型语言模型的评估 — 中文等级 B1

苏黎世大学的研究团队由 Federico Germani 和 Giovanni Spitale 领导。他们让四个模型（OpenAI o3-mini、Deepseek Reasoner、xAI Grok 2、Mistral）各自生成50条关于24个有争议话题的陈述，话题包括疫苗强制、地缘政治和气候变化政策。

研究人员随后让模型在不同条件下对这些陈述进行评估：有时不提供作者信息，有时把文本标为某一国籍的人写的，或标为另一款大型语言模型写的。研究共收集了192'000次评估。未提供作者信息时，模型之间的总体一致率超过90%。Spitale 认为媒体对“AI 民族主义”的担忧被夸大了。

但当加入虚构作者信息后，一致性下降，出现隐藏偏见。所有模型都出现了反华偏见，甚至包括中国的 Deepseek。在像台湾主权这样的题目上，Deepseek 的一致度下降了多达75%。研究还发现模型更倾向于信任人类作者而非其他 AI。研究者警告这种偏见会影响内容审核、招聘、学术评审和新闻工作，并建议加强透明性和治理。

难词

偏见 — 对某人或某事不公正的看法或态度。

一致性 — 保持相同或相似的状态或行为。

影响 — 改变或对某事产生作用。

风险 — 可能发生的危险或不利结果。

透明性 — 清晰、公开的状态，容易理解和检查。

提示：在文章中将鼠标悬停、聚焦或轻触高亮词语，即可在阅读或听音频时快速查看简要释义。