Nghiên cứu do nhóm từ Brown University thực hiện và được trình bày tại một hội nghị quốc tế ở Rio de Janeiro. Michael Lepori, nghiên cứu sinh tại Brown, cho biết nhóm tìm thấy bằng chứng rằng các mô hình ngôn ngữ mã hóa những ràng buộc nhân quả của thế giới thực và dự đoán được các phán đoán của con người.
Để kiểm tra, họ trình bày các câu mô tả sự kiện với mức hợp lý khác nhau, ví dụ "Someone cooled a drink with ice", "Someone cooled a drink with snow", "Someone cooled a drink with fire" và "Someone cooled a drink with yesterday". Nhóm phân tích các trạng thái toán học nội tại của mô hình bằng mechanistic interpretability, phương pháp giống như "thần kinh học cho hệ thống AI" nhằm giải mã những gì mô hình lưu trữ bên trong.
Thí nghiệm chạy trên nhiều mô hình mã nguồn mở, bao gồm GPT-2, Llama 3.2 và Gemma 2, để tránh phụ thuộc vào một mô hình cụ thể. Kết quả cho thấy các mô hình đủ lớn phát triển các vector nội tại phân biệt cho các hạng mục hợp lý, và những vector này phản ánh cả sự không chắc chắn của con người.
Từ khó
- ràng buộc — giới hạn hoặc quy tắc liên quan đến sự kiệnràng buộc nhân quả
- nhân quả — mối quan hệ nguyên nhân và kết quả trong sự kiện
- mô hình ngôn ngữ — chương trình máy tính xử lý và sinh ngôn ngữ
- phán đoán — kết luận hoặc đánh giá của con người về sự việc
- giải mã — tìm hiểu và diễn giải thông tin bên trong hệ thống
- nội tại — thuộc về bên trong của một hệ thống hoặc đối tượng
- vector — đại diện số học cho tính chất bên trong mô hìnhvector nội tại
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn nghĩ việc mô hình ngôn ngữ dự đoán phán đoán của con người sẽ ảnh hưởng thế nào đến công việc hoặc quyết định con người? Hãy nêu 1–2 lý do.
- Tại sao nhóm nghiên cứu lại dùng các câu với mức hợp lý khác nhau (ví dụ dùng đá, tuyết, lửa, 'hôm qua') trong thí nghiệm? Giải thích ngắn gọn.
- Bạn thấy ưu điểm và rủi ro khi dùng phương pháp giải mã nội tại để hiểu mô hình AI là gì? Nêu 1–2 ý chính.