Nghiên cứu do Xiaoyan Bai và Chenhao Tan tại University of Chicago dẫn đầu, phối hợp với cộng tác viên từ MIT, Harvard, University of Waterloo và Google DeepMind, so sánh huấn luyện tinh chỉnh tiêu chuẩn với phương pháp Chuỗi suy luận ẩn (ICoT). Họ tập trung vào phép nhân hai số có bốn chữ số, một bài toán đòi hỏi duy trì các tổng chạy và tích từng cặp chữ số qua nhiều bước.
Dưới huấn luyện tinh chỉnh tiêu chuẩn, các mô hình có từ hai đến mười hai lớp đạt độ chính xác rất thấp, dưới 1%. Nhóm nhận thấy các mô hình này rơi vào cực tiểu cục bộ: chúng học các mẫu bề ngoài trong dữ liệu nhưng không phát triển cơ chế lưu trữ giá trị trung gian cho các bước sau.
Ngược lại, mô hình huấn luyện bằng ICoT đạt kết quả chính xác trong mọi thử nghiệm. Khi thăm dò trạng thái ẩn, các nhà nghiên cứu có thể giải mã các tổng chạy từ trạng thái đó, chứng tỏ mô hình đã học cách nhớ thông tin cần cho nhiệm vụ. Họ cũng thấy rằng thêm một mục tiêu huấn luyện để theo dõi tổng chạy giúp mô hình hai lớp tăng lên gần như chính xác mà không cần giám sát chuỗi suy luận rõ ràng.
Từ khó
- tinh chỉnh — thay đổi tham số sau huấn luyện ban đầu
- chuỗi suy luận ẩn — phương pháp cho phép mô hình suy luận các bước
- cực tiểu cục bộ — giá trị tối thiểu cục bộ của hàm lỗi
- tổng chạy — giá trị cộng dồn theo bước khi tính toán
- trạng thái ẩn — thông tin nội bộ mã hóa trong mô hình
- giải mã — chuyển tín hiệu thành thông tin dễ hiểu
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Theo bạn, tại sao các mô hình dưới huấn luyện tinh chỉnh tiêu chuẩn lại rơi vào cực tiểu cục bộ?
- Việc mô hình ghi nhớ tổng chạy có thể hữu ích cho loại nhiệm vụ nào khác trong thực tế? Hãy nêu một ví dụ và lý do.
- Bạn nghĩ ưu và nhược điểm của việc thêm mục tiêu huấn luyện phụ (như theo dõi tổng chạy) là gì?
Bài viết liên quan
Thu ADN cá hồi từ không khí để theo dõi di cư
Các nhà nghiên cứu ở Washington thu ADN cá hồi Coho từ không khí trong mùa di cư và so sánh dữ liệu với số đếm bằng mắt của trại nuôi. Kết quả cho thấy eDNA không khí biến đổi theo xu hướng di cư và có thể chỉ ra vị trí cùng mật độ tương đối của cá.