Một bài báo năm 2025 của Stanford Institute for Human-Centered AI báo động rằng nhiều mô hình ngôn ngữ lớn phổ biến hoạt động kém với các ngôn ngữ không phải tiếng Anh. Vì thế giới trực tuyến bị chi phối bởi tiếng Anh và nhiều nhà phát triển dựa trên dữ liệu tiếng Anh, khoảng cách này ngày càng lớn.
Các nhà nghiên cứu lưu ý rằng một số mô hình công khai, gồm những mô hình do Google và Meta đồng phát triển, có thể tạo ra phản hồi không phù hợp với nhu cầu đa số dân số toàn cầu. Một số ngôn ngữ như Kurdish và Swahili thực chất bị hạ ưu tiên; người dùng có thể nhận đầu ra không hữu ích hoặc nhiều lỗi.
Các ví dụ thực tế cho thấy khi yêu cầu viết bằng tiếng Tamil, mô hình có thể trả về bản nháp lẫn tiếng Anh; và thu thập dữ liệu đa ngôn ngữ từ web đôi khi đưa vào lỗi dịch máy. Chuyên gia đề xuất làm việc với cộng đồng bị lề hóa, rà soát đầu ra về độ chính xác và thiết lập quan hệ đối tác tôn trọng khác biệt văn hóa.
Từ khó
- mô hình ngôn ngữ lớn — hệ thống máy tính tạo văn bản tự nhiên
- chi phối — kiểm soát hoặc ảnh hưởng mạnh mẽ
- hạ ưu tiên — đặt mức quan trọng thấp hơn cho
- đầu ra — kết quả hoặc nội dung do hệ thống sinh
- dịch máy — việc dịch do chương trình máy tính
- lề hóa — đưa một nhóm vào vị trí ít quan trọng
- rà soát — kiểm tra kỹ để phát hiện lỗi
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn có từng dùng công cụ AI bằng ngôn ngữ mẹ đẻ không? Kết quả có chính xác và hữu ích không?
- Theo bạn, làm thế nào để các nhà phát triển hợp tác tốt với cộng đồng bị lề hóa?
- Bạn nghĩ việc rà soát đầu ra về độ chính xác có thể thực hiện như thế nào trong thực tế?