LingVo.club
等级
作者身份如何影响大型语言模型的评估 — 等级 B1 — three white disc on brown surface

作者身份如何影响大型语言模型的评估CEFR B1

2025年11月25日

等级 B1 – 中级
4 分钟
195

苏黎世大学的研究团队由 Federico Germani 和 Giovanni Spitale 领导。他们让四个模型(OpenAI o3-mini、Deepseek Reasoner、xAI Grok 2、Mistral)各自生成50条关于24个有争议话题的陈述,话题包括疫苗强制、地缘政治和气候变化政策。

研究人员随后让模型在不同条件下对这些陈述进行评估:有时不提供作者信息,有时把文本标为某一国籍的人写的,或标为另一款大型语言模型写的。研究共收集了192'000次评估。未提供作者信息时,模型之间的总体一致率超过90%。Spitale 认为媒体对“AI 民族主义”的担忧被夸大了。

但当加入虚构作者信息后,一致性下降,出现隐藏偏见。所有模型都出现了反华偏见,甚至包括中国的 Deepseek。在像台湾主权这样的题目上,Deepseek 的一致度下降了多达75%。研究还发现模型更倾向于信任人类作者而非其他 AI。研究者警告这种偏见会影响内容审核、招聘、学术评审和新闻工作,并建议加强透明性和治理。

难词

  • 偏见对某人或某事不公正的看法或态度。
  • 一致性保持相同或相似的状态或行为。
  • 影响改变或对某事产生作用。
  • 风险可能发生的危险或不利结果。
  • 透明性清晰、公开的状态,容易理解和检查。

提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。

讨论问题

  • 你认为如何减少AI模型中的偏见?
  • 社会中有哪些例子显示偏见的影响?
  • 人工智能的透明性对社会的重要性是什么?

相关文章

作者身份如何影响大型语言模型的评估 — 中文 等级 B1 | LingVo.club