Penelitian ini meneliti apakah model bahasa besar yang dilatih pada teks internet benar-benar menangkap batasan dunia nyata, atau hanya meniru pola bahasa. Karena data pelatihan mengandung fakta, kesalahan, dan pernyataan absurd, peneliti ingin tahu apakah model bisa membedakan peristiwa yang umum, tidak mungkin, mustahil, atau tidak masuk akal.
Tim dari Brown University mempresentasikan hasil pada Konferensi Internasional tentang Representasi Pembelajaran (ICLR) di Rio de Janeiro. Michael Lepori, kandidat PhD yang memimpin studi, menyatakan bahwa ada "bukti bahwa model bahasa telah menyandi sesuatu seperti kendala kausal dunia nyata." Untuk menguji ini, tim menyusun kalimat contoh — misalnya mendinginkan minuman dengan es, dengan salju, dengan api, atau dengan kata "kemarin" — lalu memeriksa keadaan matematis internal model menggunakan interpretabilitas mekanistik, yang mereka bandingkan dengan penilaian manusia.
Eksperimen dijalankan pada beberapa model open-source agar hasil tidak bergantung pada satu arsitektur, termasuk GPT-2 dari OpenAI, Llama 3.2 dari Meta, dan Gemma 2 dari Google. Studi menunjukkan bahwa model berukuran cukup besar mengembangkan vektor internal berbeda untuk kategori plausibilitas; vektor ini bahkan bisa membedakan kategori mirip seperti tidak mungkin versus mustahil dengan akurasi sekitar 85%. Vektor itu juga mencerminkan ketidakpastian manusia pada pernyataan yang ambigu.
Para peneliti melaporkan bahwa vektor-vektor tersebut mulai muncul pada model dengan lebih dari 2 miliar parameter, sementara model masa kini bisa memiliki lebih dari satu triliun parameter. Temuan ini dianggap berguna untuk mengembangkan model yang lebih cerdas dan lebih dapat dipercaya.
- Interpretabilitas mekanistik mengungkap apa yang disandi model.
- Vektor internal memetakan penilaian plausibilitas manusia.
- Temuan membantu pengembangan model lebih cerdas dan dapat dipercaya.
Kata-kata sulit
- sandi — mengubah informasi menjadi bentuk yang tersimpanmenyandi
- interpretabilitas mekanistik — cara menjelaskan fungsi internal model secara rinci
- vektor — representasi angka yang menyimpan informasi di modelvektor internal, vektor-vektor
- plausibilitas — seberapa mungkin suatu peristiwa atau pernyataan
- parameter — nilai atau ukuran yang menentukan perilaku model
- akurasi — tingkat kebenaran atau ketepatan hasil model
- kausal — berkaitan dengan hubungan sebab dan akibat
- mencerminkan — menunjukkan sesuatu secara jelas atau menggambarkan
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Bagaimana temuan tentang vektor yang memetakan plausibilitas bisa membantu membuat model lebih dapat dipercaya? Berikan alasan atau contoh.
- Apa konsekuensi jika model bahasa hanya meniru pola bahasa tanpa memahami batasan dunia nyata? Jelaskan risiko yang mungkin muncul.
- Apakah ambang munculnya vektor pada model lebih dari 2 miliar parameter berarti pengembangan model harus fokus pada ukuran besar saja? Mengapa atau mengapa tidak?