대형 언어 모델이 네 자리 곱셈을 못하는 이유 — 한국어 레벨 B2

시카고 대학교의 Xiaoyan Bai와 Chenhao Tan이 주도하고 MIT, 하버드 대학교, 워털루 대학교, Google DeepMind의 공동 연구자가 참여한 이번 연구는 왜 최첨단 대형 언어 모델이 비교적 단순한 두 개의 네 자리 수 곱셈 문제를 잘 해결하지 못하는지를 상세히 분석했습니다. 연구진은 장기 의존성 문제, 즉 부분 곱과 누적 합을 유지해 최종 정답을 만들어야 하는 과정에 초점을 맞췄습니다.

연구는 표준 미세 조정 방식과 암묵적 사고 연쇄(Implicit Chain of Thought, ICoT)를 직접 비교했습니다. 표준 미세 조정 아래에서는 two to 12 layers를 가진 모델들이 네 자리 곱셈에서 less than 1% 정확도를 보였고, 연구진은 이들이 국소 최적해에 머물러 훈련 데이터의 표면 패턴만 학습한다고 결론지었습니다. 대조적으로 ICoT로 학습된 모델은 100% 정확도에 도달했고, 내부 은닉 상태에서 누적 합을 디코딩할 수 있었습니다.

연구는 ICoT 모델이 시간에 따라 주의를 구분된 경로로 조직하고, 초기 층은 자리수 쌍의 곱을 계산·저장하며 이후 층이 그 값을 불러와 최종 자릿수를 구성한다고 보고합니다. 또한 자리수 표현이 푸리에 유사 기저(Fourier-like bases)를 닮았고, 훈련 과정에서 Minkowski 합과 유사한 기하학적 연산이 자연스럽게 나타난다는 관찰을 제시합니다. 더 나아가 연구진이 각 단계의 누적 합을 추적하도록 하는 보조 목표를 두 층 모델에 추가하자 explicit chain-of-thought 감독 없이 정확도가 99%로 올라갔고, 해당 모델은 ICoT와 유사한 주의 메커니즘과 여러 자리수 쌍을 추적하는 전략을 개발했습니다.

연구는 단순히 데이터나 매개변수 규모를 늘리는 것만으로는 이러한 한계가 저절로 해결되지 않는다는 시사점을 제시합니다. Tan은 "AI가 중요한 의사결정에 점점 더 통합되는 만큼, 그것이 학습하고 사고하는 고유한 방식을 이해하는 것이 필수적이다"라고 말했습니다. Source: University of Chicago

어려운 단어·표현

장기 의존성 — 이전 정보가 오래 영향을 주는 문제

암묵적 사고 연쇄 — 모델 내부에서 단계적 추론을 암시하는 방식

미세 조정 — 사전학습된 모델을 추가로 훈련하는 방법

국소 최적해 — 부분 해결에서 멈춘 최적 아닌 해법

국소 최적해에

누적 합 — 계산 과정에서 이전 값을 더한 결과

은닉 상태 — 모델 내부에 저장되는 숨겨진 정보 상태

내부 은닉 상태에서

주의 — 모델이 입력의 중요한 부분에 집중하는 과정

주의를, 주의 메커니즘과

팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.