Các nhà nghiên cứu đặt câu hỏi liệu các mô hình ngôn ngữ AI hiện đại có mã hóa dạng hiểu biết về thế giới thực hay không, vì chúng được huấn luyện trên văn bản Internet chứa sự thật, lỗi và nội dung vô nghĩa. Công trình do nhóm từ Brown University thực hiện và được trình bày tại International Conference on Learning Representations ở Rio de Janeiro; Michael Lepori là người dẫn dắt và mô tả nghiên cứu là tìm bằng chứng về các ràng buộc nhân quả mà mô hình có thể lưu giữ.
Nhóm thiết kế thí nghiệm bằng cách đưa vào các câu mô tả sự kiện với mức độ hợp lý khác nhau — từ thông thường, ít có khả năng, không thể đến vô nghĩa — và kiểm tra trạng thái toán học nội tại do AI tạo ra. Họ dùng mechanistic interpretability, phương pháp nhằm giải mã những biểu diễn nội bộ của mô hình, giống như "thần kinh học cho hệ thống AI".
Thử nghiệm thực hiện trên nhiều mô hình mã nguồn mở (ví dụ OpenAI’s GPT-2, Meta’s Llama 3.2 và Google’s Gemma 2) để tránh lệ thuộc vào một hệ thống duy nhất. Kết quả cho thấy các mô hình đủ lớn phát triển các vector nội tại riêng biệt tương ứng với các hạng mục hợp lý; các vector này phân biệt tốt ngay cả các hạng mục tương tự như "ít có khả năng" và "không thể", với độ chính xác khoảng 85%.
Các vector cũng phản ánh sự không chắc chắn của con người: với phát ngôn mơ hồ, kết quả mô hình phù hợp với phân chia ý kiến trong khảo sát của con người. Tác giả lưu ý những vector bắt đầu xuất hiện ở mô hình có hơn 2 billion tham số, con số này còn nhỏ so với một số mô hình hiện nay có hơn nghìn tỷ tham số. Phát hiện có thể giúp tiết lộ những gì mô hình đã mã hóa và hỗ trợ phát triển các mô hình thông minh, đáng tin cậy hơn.
- Mechanistic interpretability có thể tiết lộ những gì mô hình đã mã hóa.
- Các vector tương ứng với phán đoán về mức hợp lý của con người.
- Phát hiện có thể giúp phát triển các mô hình thông minh và đáng tin cậy hơn.
Từ khó
- mã hóa — lưu trữ hoặc biểu diễn thông tin bên trong hệ thống
- ràng buộc nhân quả — liên hệ nguyên nhân và kết quả giữa các biến
- giải mã — hiểu và giải thích biểu diễn bên trong mô hình
- nội tại — thuộc về cấu trúc hoặc trạng thái bên trong
- vector — đại diện số học nhiều chiều cho thông tinCác vector
- tham số — giá trị điều chỉnh hành vi của mô hình
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn nghĩ việc mô hình mã hóa phán đoán về mức hợp lý của con người sẽ ảnh hưởng thế nào đến độ đáng tin cậy của AI? Nêu lý do.
- Bạn thấy lợi ích và rủi ro khi sử dụng phương pháp giải mã biểu diễn nội bộ để phát triển mô hình là gì?
- Mô hình có hơn 2 billion tham số mới bắt đầu xuất hiện các vector này; theo bạn điều đó có ý nghĩa gì cho thiết kế mô hình trong tương lai?