Các công cụ trí tuệ nhân tạo lan rộng rất nhanh, và trong tháng Tư ChatGPT của OpenAI đạt một tỷ người dùng hoạt động hàng tuần. Cùng lúc, nhiều báo cáo ghi nhận tác hại do AI thiên vị, như điều trị y tế khác nhau theo nhân khẩu và công cụ tuyển dụng phân biệt đối xử với phụ nữ và người da đen.
Nghiên cứu từ University of Texas at Austin, do Hüseyin Tanriverdi cùng John-Patrick Akinyemi (McCombs, chuyên ngành IROM) thực hiện, phân tích một tập gồm 363 thuật toán được xác định là có thiên vị. Những thuật toán này lấy từ kho dữ liệu AI Algorithmic and Automation Incidents and Controversies. Các tác giả so sánh mỗi thuật toán gây vấn đề với một thuật toán tương tự không bị gọi tên là thiên vị và xem xét cả các tổ chức đã phát triển và sử dụng chúng.
Các nhà nghiên cứu nhận diện ba yếu tố liên quan làm tăng rủi ro kết quả không công bằng. Thứ nhất, khi không có một “độ thật” (ground truth) rõ ràng, quyết định của hệ thống dễ dẫn tới sai lệch; cứ như một thuật toán được yêu cầu đoán tuổi từ phim X-quang dù không có phương pháp xác định đã được xác nhận. Thứ hai, mô hình thường đơn giản hóa thế giới thực và bỏ sót các biến then chốt, ví dụ ở Arkansas thay các chuyến thăm nhà của y tá bằng quyết định tự động về quyền lợi Medicaid khiến người khuyết tật mất hỗ trợ. Thứ ba, thiếu sự tham gia đa dạng của các bên liên quan khiến mục tiêu mâu thuẫn bị che khuất.
Nghiên cứu kết luận rằng giảm thiên vị cần nhiều hơn việc cải thiện độ chính xác: các nhà phát triển phải mở “hộp đen”, tính đến độ phức tạp thực tế, sử dụng nguồn dữ liệu đa dạng và xác định rõ độ thật. Nghiên cứu được công bố trên MIS Quarterly. Nguồn: UT Austin.
Từ khó
- thuật toán — quy trình máy tính xử lý dữ liệu theo bước
- thiên vị — đối xử không công bằng do sai lệch dữ liệu
- “độ thật” — giá trị tham chiếu để xác định kết quả đúng
- “hộp đen” — hệ thống hoạt động nhưng không rõ cách ra quyết định
- đa dạng — bao gồm nhiều loại hoặc nguồn khác nhau
- độ chính xác — mức độ kết quả gần với giá trị đúng
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Theo bạn, việc 'mở hộp đen' cho thuật toán có thể giúp giảm thiên vị như thế nào? Hãy nêu lợi ích và khó khăn.
- Bằng ví dụ thực tế, bạn nghĩ việc dùng nguồn dữ liệu đa dạng sẽ thay đổi kết quả của hệ thống AI ra sao?