LingVo.club
레벨
저자 정보로 달라지는 LLM의 판단 — 레벨 B2 — three white disc on brown surface

저자 정보로 달라지는 LLM의 판단CEFR B2

2025년 11월 25일

원문 출처: U. Zurich, Futurity CC BY 4.0

사진 출처: Siora Photography, Unsplash

레벨 B2 – 중고급
4
210 단어

취리히 대학교 연구진(Federico Germani, Giovanni Spitale)은 네 가지 널리 쓰이는 대형 언어 모델(LLM)—OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, Mistral—을 대상으로 동일한 텍스트에 대한 평가가 저자 정보에 따라 어떻게 달라지는지 실험했다. 연구진은 24개의 논쟁적 주제(예: 백신 의무, 지정학, 기후 변화 정책)에 관해 각 모델이 50개의 서술문을 생성하게 하고, 그 문장들을 출처 없음, 특정 국적의 인간 저자 표기, 다른 LLM 저자 표기 등 여러 조건으로 평가하도록 하여 총 192’000개의 평가를 수집했다.

분석 결과 출처 정보가 없을 때 모델 간 합의율은 높아 over 90%를 넘었다. 그러나 저자 정체를 추가하자 시스템 간 합의는 급격히 떨어졌고, 텍스트는 같았지만 평가가 변했다. 특히 모든 모델에서 반중 편향이 일관되게 나타났다. 중국인으로 표기하면 동의가 크게 떨어졌고, Deepseek는 대만 주권 관련 문항에서 단순히 저자를 중국인으로 예상했다는 이유만으로 합의가 up to 75%까지 줄었다.

또한 대부분 모델은 텍스트를 인간이 쓴 것으로 판단할 때 더 높은 신뢰를 보였고, 다른 AI가 쓴 것으로 인식되면 동의 점수가 약간 낮아졌다. 연구진은 이러한 숨은 편향이 콘텐츠 검열, 채용, 학술 심사, 저널리즘 등 실제 응용에 영향을 미칠 수 있다고 경고하며, 평가 과정에 투명성과 거버넌스를 도입할 것을 촉구했다. 연구는 Sciences Advances에 게재되었고 출처는 University of Zurich이다.

  • 주요 결과: 저자 표기가 판단에 큰 영향
  • 두드러진 편향: 반중 경향
  • 권고: 투명성과 거버넌스 필요

어려운 단어·표현

  • 연구진과학적 연구를 수행한 사람들 집단
  • 대형 언어 모델많은 언어 데이터를 학습한 인공지능 시스템
  • 합의율여러 시스템이 같은 판단을 한 비율
  • 저자 정체글을 쓴 사람이나 집단의 신원 표시
  • 편향공정하지 않은 쪽으로 치우친 성향
  • 투명성과정과 정보가 명확하게 공개되는 상태
  • 거버넌스조직이나 시스템의 관리와 규칙과 절차
  • 검열정보나 표현을 제한하거나 차단하는 행위

팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.

토론 질문

  • 저자 표기가 모델 평가에 큰 영향을 미친다는 결과가 인사·학술 심사·저널리즘에 어떤 문제를 일으킬 수 있을지 예를 들어 설명해보세요.
  • 연구진은 투명성과 거버넌스 도입을 촉구했습니다. LLM 평가에서 투명성과 거버넌스를 어떻게 구현할 수 있을지 현실적인 방법을 하나 이상 제안해보세요.
  • 이번 연구에서 반중 편향이 발견되었습니다. 이런 편향을 줄이기 위해 모델 개발자나 평가자가 취할 수 있는 구체적 조치는 무엇일지 논의해보세요.

관련 기사