브라운 대학교 연구진은 대형 AI 언어 모델이 현실 세계의 인과적 제약과 유사한 정보를 내부에 어떻게 부호화하는지 연구했다. 연구는 리우데자네이루에서 열린 International Conference on Learning Representations에 발표되었으며, 연구 책임자 마이클 레포리는 이 발견이 언어 모델들이 인간의 판단을 예측하는 방식으로 내부에 기록한다는 증거를 제공한다고 설명했다.
연구팀은 실험으로 다양한 가능성 수준의 문장을 모델에 제시했다. 예로 일상적 사건('얼음으로 음료를 식혔다'), 있을 법하지 않은 사건('눈으로 음료를 식혔다'), 불가능한 사건('불로 음료를 식혔다'), 그리고 무의미한 문장('어제로 음료를 식혔다')을 사용했다. 그런 다음 기계적 해석 기법으로 모델의 내부 수학적 상태를 역설계했다. 레포리는 이를 'AI 시스템을 위한 신경과학'에 비유했다.
여러 오픈소스 모델들(GPT-2, Llama 3.2, Gemma 2 등)에서 충분히 큰 모델에 한해 가능성 범주에 대응하는 뚜렷한 내부 벡터가 나타났다. 이 벡터들은 있을 법하지 않음과 불가능함 같은 유사한 범주를 약 85%의 정확도로 구별했고, 애매한 문장에서는 인간 설문에서 보인 분열된 판단과 일치하는 불확실성도 반영했다. 연구진은 이러한 벡터가 2 billion개 이상의 매개변수를 가진 모델에서 나타나기 시작한다고 보고했으며, 이 발견은 더 똑똑하고 신뢰할 수 있는 모델 개발에 도움이 될 수 있다.
- 기계적 해석은 모델이 무엇을 부호화하는지 드러낼 수 있다.
- 내부 벡터는 인간의 가능성 판단에 대응한다.
- 발견은 모델의 신뢰성과 안전성 개선에 기여할 수 있다.
어려운 단어·표현
- 인과적 — 원인과 결과 사이의 관계를 나타내는
- 제약 — 행동이나 상황을 제한하는 조건이나 요소제약과
- 부호화하다 — 정보를 기호나 형태로 바꾸어 저장하는 것부호화하는지
- 역설계하다 — 시스템 구조를 거꾸로 분석하여 이해하다역설계했다
- 기계적 해석 — 모델 내부를 계산적으로 분석하는 방법
- 내부 벡터 — 모델 상태를 숫자로 표현한 값
- 매개변수 — 모델 학습에서 조정되는 수치 값매개변수를
- 불확실성 — 결과나 판단이 확실하지 않은 상태불확실성도
- 신뢰성 — 시스템이나 정보가 믿을 만한 정도신뢰성과
팁: 글에서 강조된 단어에 마우스를 올리거나 포커스/탭하면, 읽거나 들으면서 바로 간단한 뜻을 볼 수 있습니다.
토론 질문
- 이 발견이 모델의 신뢰성과 안전성 개선에 어떻게 기여할 수 있는지 설명해보세요.
- 내부 벡터가 인간의 가능성 판단을 예측한다고 할 때 그 의미와 한계를 어떻게 생각하나요? 예를 들어 설명하세요.
- 기계적 해석으로 모델을 역설계하는 방법의 장단점을 논해보세요.