Nhóm nghiên cứu tại Đại học Washington hỏi liệu hệ AI có thể học giá trị văn hóa bằng cách quan sát hành vi con người, tương tự cách trẻ em học. Họ tuyển hai nhóm người lớn và dùng dữ liệu mỗi nhóm để huấn luyện hai tác nhân riêng. Dữ liệu được thu qua một phiên bản trò chơi Overcooked, nơi người chơi có thể cho hành để giúp người chơi khác nhưng sẽ giao ít súp cho mình hơn.
Các tác nhân được huấn luyện bằng phương pháp học tăng cường nghịch đảo (inverse reinforcement learning, IRL), nghĩa là AI quan sát hành vi rồi suy ra mục tiêu và phần thưởng. Trong thí nghiệm, nhóm Latino cho giúp nhiều hơn so với nhóm da trắng, và tác nhân học từ dữ liệu Latino hành xử vị tha hơn, kể cả trong bài kiểm tra quyên góp tiền. Kết quả được công bố trên PLOS One.
Các tác giả, gồm Rajesh Rao và Andrew Meltzoff, nói rằng không nên mã cứng một bộ giá trị phổ quát vào hệ AI và cần thêm nghiên cứu với nhiều nhóm văn hóa hơn.
Từ khó
- giá trị văn hóa — niềm tin và chuẩn mực của một nhóm
- quan sát — nhìn và chú ý hành động của người khác
- hành vi — cách một người cư xử hoặc làm việc
- tác nhân — chương trình hoặc hệ thống thực hiện hành động
- học tăng cường — phương pháp máy học dựa trên phần thưởng
- vị tha — sẵn sàng giúp người khác hơn mình
- quyên góp — cho tiền hoặc vật để ủng hộ ai
Mẹo: di chuột, dùng phím Tab hoặc chạm vào các từ được tô sáng trong bài để xem định nghĩa nhanh ngay khi bạn đọc hoặc nghe.
Câu hỏi thảo luận
- Bạn nghĩ việc cho AI học giá trị văn hóa từ hành vi con người có lợi và rủi ro gì?
- Nếu bạn tham gia trò Overcooked trong thí nghiệm, bạn sẽ giúp người khác hay không? Tại sao?
- Tại sao các tác giả đề nghị cần thêm nghiên cứu với nhiều nhóm văn hóa hơn?