Một nhóm do University of Chicago dẫn đầu hợp tác với các trường đại học khác và Google DeepMind để nghiên cứu lý do các mô hình ngôn ngữ lớn khó nhân số có bốn chữ số. Họ so sánh cách huấn luyện tinh chỉnh tiêu chuẩn với một phương pháp gọi là Chuỗi suy luận ẩn (ICoT).
Khi phải giữ các tổng chạy và tích từng cặp chữ số trong nhiều bước, nhiều mô hình tinh chỉnh tiêu chuẩn hoạt động rất kém, gần như không chính xác. Ngược lại, mô hình huấn luyện bằng ICoT có thể lưu giá trị trung gian và đưa ra đáp án chính xác trong các phép thử của nhóm.
Nhóm còn thử thêm một mục tiêu huấn luyện để dạy mô hình theo dõi tổng chạy ở mỗi bước và thấy cải thiện rõ rệt mà không cần giám sát chuỗi suy luận rõ ràng.
Từ khó
- tinh chỉnh — thay đổi mô hình bằng dữ liệu thêmtinh chỉnh tiêu chuẩn
- Chuỗi suy luận ẩn — phương pháp cho mô hình tạo các bước giải
- tổng chạy — giá trị cộng dồn theo từng bước
- tích — kết quả của phép nhân hai số
- giá trị trung gian — kết quả tạm thời trong quá trình tính
- mục tiêu huấn luyện — nhiệm vụ dùng để dạy mô hình
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn nghĩ vì sao việc theo dõi tổng chạy lại quan trọng khi nhân số nhiều chữ số?
- Bạn có thể mô tả một bước đơn giản để lưu giá trị trung gian khi tính bằng tay không?
- Bạn nghĩ lợi ích của việc dùng phương pháp như Chuỗi suy luận ẩn trong mô hình ngôn ngữ là gì?