예일 경영대 연구진의 새 연구는 생성형 AI가 단지 어떤 제목이 인기가 있었는지 학습하는 수준을 넘어서, '왜' 그 제목이 효과적인지 설명을 찾아내고 그 설명을 검증하면 더 흥미롭고 신뢰할 수 있는 콘텐츠를 생성할 수 있다고 밝힙니다. 연구진은 A/B 테스트 관행을 출발점으로 삼았습니다. A/B 테스트는 서로 다른 두 제목을 서로 다른 독자에게 보여 클릭률을 비교하는 방법입니다.
연구진(Tong Wang, K. Sudhir, Hengguang Zhou)은 Upworthy의 데이터(4,500개 기사에 대한 23,000개 제목)를 활용해 접근법을 검증했습니다. 일부 데이터와 클릭률을 모델에 넣어 모델이 제목의 매력에 대한 경쟁 가설을 제시하게 하고, 그 가설들이 더 큰 표본에 얼마나 잘 일반화되는지 테스트했습니다. 평가 단계에서는 Upworthy의 A/B 테스트 결과를 바탕으로 사전 학습된 평가 모델이 제목 품질을 측정했습니다.
검증된 가설을 추출한 뒤 연구진은 언어 모델을 미세조정해 피상적 단서를 악용하지 않고 진짜 이유로 참여도를 극대화하는 제목을 생성하게 했습니다. 이 과정은 가능한 설명을 도출하는 약추론(abduction)과 그 설명을 더 큰 표본으로 테스트하는 귀납(induction)을 닮았습니다. 사람 평가 실험(약 150명)에서는 원본 제목과 표준 AI가 각각 약 30%의 빈도로 최선으로 선택된 반면, 새 모델은 44%로 선택되었습니다. 분석 결과 표준 AI는 선정적 표현에 더 의존하는 경향이 있었습니다.
연구진은 이 접근법이 분야를 넘나드는 지식을 생성할 수 있다고 말했습니다. Sudhir는 고객 지원 담당자를 위한 개인화된 AI 코칭 사례를 예로 들며, 시스템이 상호작용을 검토하고 무엇이 효과적인지에 대한 가설을 제시·검증해 조언을 제공할 수 있다고 설명했습니다. 입력은 텍스트뿐 아니라 오디오나 시각적 데이터도 포함될 수 있으며, 연구팀은 지식 기반 AI가 콘텐츠를 개선하고 AI 시스템을 더 책임 있고 신뢰할 수 있게 만들 수 있다고 결론지었습니다.
어려운 단어·표현
- 생성형 — 컴퓨터가 새로운 텍스트나 이미지를 만드는 방식
- 검증하다 — 정보나 결과가 정확한지 확인하는 과정검증하면, 검증된
- 귀납 — 구체적 사례에서 일반적 원리를 이끌어내는 방법귀납(induction)
- 약추론 — 가능한 설명을 찾아 내는 추론 방식약추론(abduction)
- 미세조정하다 — 이미 있는 모델을 조금씩 조정하는 것미세조정해
- 표본 — 연구나 통계에서 선택한 관측 대상 집단
- 선정적 — 주의를 끌기 위해 자극적으로 표현하는
팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.
토론 질문
- 이 접근법이 단순한 A/B 테스트보다 장점이 있다고 생각하는 이유는 무엇인가요? 예를 들어 설명해 보세요.
- 생성형 AI가 피상적 단서를 피하고 진짜 이유로 제목을 만들면 어떤 긍정적·부정적 결과가 있을까요?
- Sudhir가 말한 개인화된 AI 코칭을 실제 업무에 도입할 때 고려해야 할 점은 무엇일까요?