워싱턴 대학교 연구진은 인간 행동 관찰을 통해 인공지능이 문화적 가치관을 학습할 수 있는지를 실험적으로 검증했습니다. 연구 결과는 PLOS One에 실렸습니다. 연구진은 이전 연구를 바탕으로, 라티노와 아시아 가정에서 자란 19개월 어린이들이 더 이타적인 경향을 보였다는 사실을 참고했습니다.
이번 연구에서는 자신을 백인이라고 밝힌 성인 190명과 자신을 라티노라고 밝힌 성인 110명의 행동 데이터를 각각 사용해 별도의 AI 에이전트를 훈련했습니다. 에이전트들은 역강화학습(IRL)으로 학습했고, 이 방식은 인간 행동을 관찰해 그 행동을 유도하는 목표와 보상을 추론합니다.
주요 실험은 Overcooked의 변형 게임에서 진행됐습니다. 참가자들은 양파 수프를 만들어 배달하면서 다른 플레이어가 더 많이 이동해야 하는 상황을 보았고, 도움을 위해 양파를 나누면 자신의 배달량이 줄어들었습니다. 실험 결과 라티노 참가자들이 백인 참가자들보다 더 자주 도움을 선택했고, 라티노 데이터로 훈련된 에이전트도 게임과 돈 기부 테스트에서 더 이타적으로 행동했습니다.
연구 책임자들은 AI에 하나의 보편적 가치 세트를 하드코딩해서는 안 된다고 지적했습니다. 시연은 데이터의 양과 다양성을 늘리면 확장 가능하고, 배포 전에 미세조정할 수 있다고 밝혔습니다. 추가 연구로 더 많은 문화 집단과 상충하는 가치, 현실 세계 문제를 시험할 필요가 있다고 덧붙였습니다. 추가 공동저자들은 UW와 San Diego State University 소속이며, 출처는 University of Washington입니다.
어려운 단어·표현
- 관찰 — 다른 사람 행동을 보고 알아내는 과정
- 이타적 — 자신보다 다른 사람을 먼저 돕는 성향이타적인, 이타적으로
- 역강화학습 — 행동 보고 그 목적과 보상 추정하는 방법
- 하드코딩하다 — 규칙이나 값을 프로그램에 직접 넣다하드코딩해서는
- 미세조정하다 — 이미 만든 모델을 자세히 조정하는 것미세조정할
- 확장 가능하다 — 규모나 범위를 늘릴 수 있는 상태확장 가능하고
- 집단 — 공통 특징으로 묶인 사람들의 모임
팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.
토론 질문
- AI를 다양한 문화 집단의 행동 데이터로 학습시키는 것의 장단점은 무엇이라고 생각하나요? 이유를 들어 설명하세요.
- 연구진이 제안한 '데이터의 양과 다양성 확대'와 '배포 전 미세조정'이 실제로 어떤 문제를 줄일 수 있을까요? 구체적으로 적어보세요.
- 이번 실험은 게임 환경에서 진행되었습니다. 게임 실험이 현실 세계의 문화적 행동을 잘 반영한다고 생각하나요? 그 이유를 설명하세요.