Một nhóm nghiên cứu do Anasse Bari dẫn đầu tại New York University cùng đồng tác giả Binxu Huang công bố phương pháp trên tạp chí Frontiers in Artificial Intelligence. Họ muốn giảm các lỗi 'hallucination'—tức thông tin sai hoặc gây hiểu lầm—mà các mô hình ngôn ngữ lớn (LLMs) thường tạo ra khi xử lý văn bản dài và lặp.
Phương pháp gồm hai giai đoạn. Trước hết, mỗi câu được làm sạch bằng cách giữ danh từ, động từ và tính từ, đồng thời gộp các cụm từ để ý nghĩa không bị tách rời. Mỗi câu rồi được mã hóa thành véc-tơ tổng hợp các đặc trưng từ vựng, ngữ nghĩa và chủ đề, sau đó được chấm điểm theo độ trung tâm, tầm quan trọng từng phần và tính phù hợp với phần tóm tắt. Nhóm tăng trọng các phần then chốt như Giới thiệu, Kết quả và Kết luận.
Sau đó, họ áp dụng nguyên tắc bầy đàn để cụm các câu tương tự lại, chọn những câu có điểm cao nhất từ mỗi đàn và giảm trùng lặp. Các câu được sắp xếp lại rồi đưa vào LLM để tổng hợp. Nhóm thử nghiệm trên hơn 9.000 tài liệu và thấy kết quả tóm tắt có độ chính xác thực tế cao hơn so với LLMs không dùng khuôn khổ. Bari nhấn mạnh đây là bước tiền xử lý chứ không phải thay thế LLMs, và phương pháp chỉ giảm, không loại bỏ, rủi ro hallucination.
Từ khó
- hallucination — thông tin sai hoặc gây hiểu lầm
- véc-tơ — dãy số biểu diễn đặc trưng văn bản
- đặc trưng — điểm hoặc tính chất mô tả dữ liệu
- gộp — kết hợp nhiều phần thành một phần
- trùng lặp — xuất hiện nhiều lần giống nhau trong văn bản
- tiền xử lý — xử lý dữ liệu trước khi đưa vào mô hình
- khuôn khổ — một phương pháp hay khung làm việc chung
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn nghĩ bước tiền xử lý mô tả trong bài có thể hữu ích cho công việc hoặc học tập của bạn không? Vì sao hoặc vì sao không?
- Việc giữ danh từ, động từ và tính từ trước khi mã hóa có thể ảnh hưởng thế nào tới nội dung tóm tắt? Nêu một vài ý kiến.
- Bạn có lo ngại về rủi ro thông tin sai khi dùng các mô hình ngôn ngữ lớn không? Bạn làm gì để kiểm tra thông tin?