Một bài báo năm 2025 của Stanford Institute for Human-Centered Artificial Intelligence (HAI) phát hiện rằng nhiều mô hình ngôn ngữ lớn (LLMs) phổ biến hoạt động kém với các ngôn ngữ ngoài tiếng Anh. Điều này quan trọng vì nội dung trực tuyến và dữ liệu huấn luyện thường nghiêng về tiếng Anh, và sự tập trung của các công ty công nghệ ở những khu vực giàu có như Thung lũng Silicon đã làm rộng thêm khoảng cách ngôn ngữ.
Các nhà nghiên cứu ghi nhận rằng LLM công khai, trong đó có một số mô hình do Google và Meta đồng phát triển, có thể đưa ra phản hồi không phù hợp với phần lớn dân số thế giới. Một số hãng tin và nghiên cứu chỉ ra các vấn đề cụ thể: khi yêu cầu viết email bằng tiếng Tamil, mô hình trả về bản nháp lẫn lộn bằng tiếng Anh; các nỗ lực tăng dữ liệu đa ngôn ngữ đôi khi lặp lại lỗi dịch máy từ nội dung web; và những người đóng góp thiện ý nhưng thiếu kỹ năng kiểm chứng có thể vô tình củng cố sai sót trong dữ liệu huấn luyện.
Vấn đề không chỉ kỹ thuật mà còn văn hóa: các đầu ra AI có xu hướng phản ánh chuẩn mực và giá trị của người nói tiếng Anh ở các nước có nguồn lực, khiến góc nhìn không phải tiếng Anh trở nên vô hình. Chuyên gia và nhà bình luận đề xuất các bước giảm hại và nâng tính công bằng, như sau:
- Làm việc với cộng đồng địa phương
- Kiểm chứng dữ liệu đa ngôn ngữ
- Hợp tác với các nhà phát triển từ cơ sở
Các bước này nhắm tới việc đưa ý kiến địa phương vào thiết kế, rà soát đầu ra về độ chính xác và thiết lập quan hệ đối tác tôn trọng khác biệt văn hóa, nhằm giảm thiểu bất lợi cho cộng đồng không nói tiếng Anh.
Từ khó
- mô hình ngôn ngữ lớn — chương trình máy tính tạo và hiểu văn bản
- đa ngôn ngữ — liên quan đến nhiều ngôn ngữ khác nhau
- kiểm chứng — xác minh tính chính xác của thông tin
- đầu ra — kết quả mà hệ thống hoặc mô hình đưa ra
- khoảng cách ngôn ngữ — sự khác biệt về truy cập và tài nguyên ngôn ngữ
- bất lợi — tác động tiêu cực làm hại một nhóm người
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Làm việc với cộng đồng địa phương có thể cải thiện kết quả AI như thế nào? Hãy nêu vài ví dụ cụ thể.
- Những rủi ro khi dùng dữ liệu web để tăng dữ liệu đa ngôn ngữ là gì? Bạn nghĩ cách kiểm chứng có thể giải quyết chúng ra sao?
- Các công ty công nghệ nên làm gì để giảm khoảng cách ngôn ngữ và đảm bảo đầu ra phù hợp cho nhiều cộng đồng hơn?