Penelitian tahun 2025 dari Stanford HAI menunjukkan bahwa banyak model bahasa besar (LLM) populer berkinerja jauh lebih baik dalam bahasa Inggris daripada dalam bahasa lain. Karena dunia daring didominasi oleh konten berbahasa Inggris dan pengembang sering mengandalkan data tersebut, ketimpangan bahasa di alat AI semakin nyata.
Para peneliti mencatat bahwa beberapa LLM publik, termasuk model yang dikembangkan sebagian oleh perusahaan besar, memberi keluaran yang tidak sesuai kebutuhan mayoritas global. Konsentrasi perusahaan dan data di wilayah berdaya sumber seperti Silicon Valley memperlebar jurang, sehingga jutaan penutur bahasa seperti Kurdi dan Swahili pada praktiknya kurang diprioritaskan.
Media juga melaporkan dampak praktis dan budaya: misalnya permintaan menulis email dalam bahasa Tamil kadang menghasilkan draf yang bercampur dengan bahasa Inggris. Penambahan data multibahasa sering gagal karena banyak teks web mengandung kesalahan terjemahan mesin, dan kontributor sukarela mungkin tidak mampu memeriksa akurasi. Akibatnya, kesalahan ini masuk ke data pelatihan dan diperkuat.
Pengamat memperingatkan bahwa keluaran AI cenderung mencerminkan norma dan nilai penutur Inggris di negara berdaya sumber, sehingga perspektif non-Inggris menjadi kurang terlihat. Para ahli menyarankan langkah konkret: bekerja dengan komunitas yang tersisih dan pemimpin AI akar rumput, memasukkan masukan lokal, meninjau keluaran untuk akurasi dan otentisitas, serta membentuk kemitraan yang menghormati perbedaan budaya.
- Bekerja dengan komunitas lokal
- Validasi data multibahasa
- Bermitra dengan pengembang akar rumput
Kata-kata sulit
- ketimpangan — perbedaan yang tidak seimbang antar kelompok
- model bahasa — sistem komputer yang memproses bahasa manusiamodel bahasa besar
- konsentrasi — penumpukan atau pengumpulan pada satu tempat
- jurang — perbedaan besar atau kesenjangan antara kelompok
- memprioritaskan — diberi urutan lebih tinggi atau dianggap lebih pentingdiprioritaskan
- terjemahan mesin — alih bahasa otomatis yang dibuat oleh komputer
- akurasi — ketepatan atau kebenaran suatu informasi
- otentisitas — keterpercayaan bahwa sesuatu asli atau sah
- keluaran — hasil yang dibuat oleh suatu sistem atau proses
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Bagaimana ketergantungan pada data berbahasa Inggris dapat memengaruhi perspektif budaya dan identitas penutur bahasa yang tersisih?
- Dari langkah-langkah yang disarankan (misalnya bekerja dengan komunitas lokal, validasi data, kemitraan), mana yang menurut Anda paling realistis untuk diterapkan di komunitas Anda? Jelaskan alasan dan contoh konkret.
Artikel terkait
SEWA: Sistem Peringatan Dini Satelit untuk Afrika
SEWA, sistem peringatan dini berbasis satelit, diluncurkan pada forum tingkat tinggi di Windhoek untuk memperkuat peringatan cuaca dan iklim. Sistem ini meningkatkan akses data dan membangun kapasitas untuk pemerintah, masyarakat sipil, dan komunitas rentan.
AI dan Foto Warga Temukan Nyamuk Anopheles stephensi di Madagaskar
Peneliti menggunakan kecerdasan buatan dan foto dari warga untuk mengidentifikasi apa yang mereka anggap sebagai deteksi pertama Anopheles stephensi di Madagaskar. Foto close-up diambil pada 2020 dan ditemukan kembali dua tahun kemudian.
Media Sosial: Manfaat dan Risiko Informasi
Media sosial memberi dukungan dan informasi, tetapi juga menyebarkan ujaran kebencian, kebohongan, dan bahaya nyata. Perubahan kebijakan dan teknologi—termasuk keputusan Meta Januari 2025 dan AI generatif—memperbesar manfaat sekaligus risiko.