Nhóm tại New York University do Anasse Bari dẫn đầu, cùng đồng tác giả Binxu Huang, công bố một khuôn khổ thuật toán trên tạp chí Frontiers in Artificial Intelligence nhằm giảm lỗi thông tin sai (hallucination) khi các mô hình ngôn ngữ lớn tạo tóm tắt cho tài liệu dài. Họ thiết kế khuôn khổ này như bước tiền xử lý để cung cấp đầu vào ngắn gọn, đa dạng và đại diện hơn cho LLMs.
Quy trình có hai giai đoạn rõ rệt. Ở giai đoạn đầu, hệ thống làm sạch câu bằng cách giữ lại danh từ, động từ và tính từ, đồng thời gộp các cụm nhiều từ để bảo toàn khái niệm. Mỗi câu được biểu diễn bằng một véc-tơ hòa trộn các đặc trưng từ vựng, ngữ nghĩa và chủ đề, rồi được chấm điểm theo ba tiêu chí chính:
- Độ trung tâm trên toàn văn bản
- Tầm quan trọng ở từng phần
- Sự phù hợp với phần tóm tắt
Phần chấm điểm cũng tăng trọng số số học cho các đoạn quan trọng như Giới thiệu, Kết quả và Kết luận. Ở giai đoạn hai, khuôn khổ áp dụng nguyên tắc bầy đàn—kết dính, định hướng và phân tách—để nhóm các câu tương tự, xác định câu lãnh đạo và câu theo, rồi chọn các câu có điểm cao nhất từ mỗi đàn. Cách này giảm trùng lặp nhưng vẫn đảm bảo bao phủ ngữ cảnh, phương pháp, kết quả và kết luận; sau khi sắp xếp lại, các câu được đưa vào LLM để tạo bản tóm tắt mạch lạc dựa trên nguồn gốc.
Nhóm thử nghiệm phương pháp trên hơn 9.000 tài liệu và ghi nhận các bản tóm tắt khi kết hợp khuôn khổ với LLMs đạt độ chính xác thực tế cao hơn so với LLMs hoạt động một mình. Bari nhấn mạnh: "Mục tiêu là giúp AI tạo ra các bản tóm tắt bám sát hơn vào nguồn gốc." Các tác giả lưu ý phương pháp có thể giảm rủi ro hallucination nhưng không loại bỏ hoàn toàn.
Từ khó
- khuôn khổ — một bộ quy tắc hoặc phương pháp tổ chứckhuôn khổ thuật toán, khuôn khổ này
- lỗi thông tin sai — thông tin do mô hình sinh ra không chính xác
- véc-tơ — dạng số biểu diễn thông tin của một câu
- độ trung tâm — mức phản ánh tầm quan trọng trong toàn văn
- bầy đàn — nguyên tắc nhóm câu theo sự tương tự
- bao phủ — đảm bảo đề cập đến nhiều phần hoặc khía cạnh
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Việc giảm lỗi thông tin sai (hallucination) có lợi ích thực tế nào cho người đọc tóm tắt khoa học? Hãy nêu hai ví dụ.
- Tác giả nói phương pháp có thể giảm rủi ro nhưng không loại bỏ hoàn toàn. Bạn nghĩ giới hạn chính của cách tiếp cận này có thể là gì?
- Việc tăng trọng số cho phần Giới thiệu, Kết quả và Kết luận ảnh hưởng thế nào đến nội dung bản tóm tắt? Bạn có lo ngại gì khi ưu tiên những phần này không?
Bài viết liên quan
Bàn chân 3.4 triệu năm liên quan đến Australopithecus deyiremeda
Các nhà khoa học báo cáo xương bàn chân tìm thấy ở Ethiopia vào năm 2009 thuộc về Australopithecus deyiremeda, sống cùng thời với Lucy. Kết quả công bố trên tạp chí Nature, công trình được tài trợ bởi hai quỹ nghiên cứu.
Các nhà khoa học giải trình tự RNA cổ từ voi ma mút gần 40,000 năm
Các nhà nghiên cứu tách và giải trình tự RNA từ mô voi ma mút bảo quản trong băng vĩnh cửu ở Siberia, mẫu RNA cổ nhất từng thu hồi. RNA cho biết gen nào hoạt động gần thời điểm chết và nghiên cứu được công bố trên tạp chí Cell.