Một nhóm tại North Carolina State University nghiên cứu tính an toàn của mô hình ngôn ngữ lớn. Họ thử các kỹ thuật huấn luyện mới để giảm phản hồi không an toàn mà vẫn giữ hiệu năng của mô hình.
Nhóm xác định hai thách thức chính: huấn luyện an toàn có thể làm giảm độ chính xác, gọi là "thuế căn chỉnh", và nhiều kiểm tra an toàn chỉ mang tính bề mặt nên đôi khi bị người dùng vượt qua. Một ví dụ là câu hỏi về cách ăn cắp tiền nhưng nêu lý do giúp người khác, mô hình có thể trả lời.
Nhóm đề xuất một giả thuyết gọi là SSAH, tìm các nơ-ron liên quan đến an toàn và thử "đóng băng" chúng khi tinh chỉnh. Họ báo cáo cách này giảm thuế căn chỉnh và vẫn giữ hành vi an toàn. Kết quả sẽ được trình bày tại ICLR2026 và mã có sẵn trực tuyến.
Từ khó
- huấn luyện — dạy máy tính bằng dữ liệu để làm việc
- an toàn — không gây hại hoặc rủi ro cho người
- thuế căn chỉnh — mất hiệu năng do điều chỉnh hướng an toàn
- nơ-ron — đơn vị trong mạng thông minh nhân tạo
- đóng băng — không cho thay đổi phần cụ thể của mô hình
- tinh chỉnh — điều chỉnh mô hình với dữ liệu mới
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn có lo lắng khi mô hình trả lời nội dung không an toàn không? Vì sao?
- Bạn nghĩ việc đóng băng nơ-ron khi tinh chỉnh có lợi hay không? Nói ngắn gọn.