Studi yang dipimpin dari University of Chicago dan kolaborator di MIT, Harvard University, University of Waterloo, dan Google DeepMind menjelaskan mengapa model bahasa besar mutakhir kesulitan menyelesaikan tugas perkalian empat digit. Tim membandingkan fine-tuning standar dengan metode pelatihan baru, Implicit Chain of Thought (ICoT), dan menaruh perhatian khusus pada ketergantungan jangka panjang: kemampuan memegang produk parsial dan jumlah berjalan yang diperlukan untuk perhitungan panjang.
Pada fine-tuning standar, model dengan dua sampai dua belas lapis mencapai kurang dari 1% akurasi karena terperangkap dalam optimum lokal dan hanya mempelajari pola permukaan. Sebaliknya, model yang dilatih dengan ICoT mencapai 100% akurasi. Analisis internal mengungkap bahwa ICoT mengkodekan nilai-nilai antara dalam hidden states: peneliti berhasil mendekode jumlah berjalan dari keadaan itu. Mereka juga mengamati organisasi mekanisme perhatian melintasi waktu, di mana lapisan awal menghitung dan menyimpan produk pasangan digit pada lokasi spesifik, lalu lapisan akhir mengambil kembali nilai tersebut untuk membentuk setiap digit hasil akhir.
Sebagian representasi digit menyerupai basis Fourier, dan operasi geometris mirip Minkowski sum muncul secara alami selama pelatihan. Untuk menguji perbaikan sederhana pada model standar, peneliti menambahkan tujuan pelatihan yang mengajarkan pelacakan jumlah berjalan. Menambahkan tujuan ini pada model dua lapis meningkatkan akurasi menjadi 99% tanpa supervisi chain-of-thought eksplisit; model itu mengembangkan mekanisme perhatian serupa ICoT dan strategi baru untuk melacak beberapa pasangan digit.
Temuan ini menyoroti poin lebih luas bahwa keterbatasan tertentu tidak otomatis hilang hanya dengan menambah data atau parameter. Panduan arsitektural dan tujuan pelatihan yang ditargetkan dapat memungkinkan model mempelajari penalaran bertahap. "Saat AI semakin terintegrasi ke pengambilan keputusan penting, penting untuk memahami cara uniknya belajar dan berpikir," kata salah satu peneliti.
- Perbandingan: fine-tuning standar vs ICoT.
- Hasil: ICoT 100% akurat; standar sangat rendah.
- Temuan teknis: penyimpanan nilai antara dan jalur perhatian.
Kata-kata sulit
- ketergantungan — kebutuhan model mempertahankan informasi selama waktuketergantungan jangka panjang
- produk parsial — bagian hasil perkalian sebelum menghitung keseluruhan
- jumlah berjalan — nilai yang diperbarui langkah demi langkah selama operasi
- optimum lokal — solusi terbaik di sekitar posisi tetapi bukan global
- mekanisme perhatian — cara model memilih informasi penting dari input
- tujuan pelatihan — objek yang ingin dicapai saat melatih model
- penalaran bertahap — proses menyelesaikan masalah lewat langkah-langkah berurutan
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Bagaimana panduan arsitektural dan tujuan pelatihan yang ditargetkan dapat membantu model belajar penalaran bertahap?
- Apa implikasi temuan bahwa menambah data atau parameter saja tidak otomatis mengatasi keterbatasan tertentu pada model?
- Berdasarkan teks, apakah Anda setuju model perlu mekanisme penyimpanan nilai antara agar dapat menyelesaikan tugas panjang? Jelaskan alasan Anda.
Artikel terkait
Kapan Anak Siap Punya Ponsel? Pilihan Telepon Rumah
Ahli dari Virginia Tech menjelaskan kapan anak mungkin siap punya ponsel dan mengapa beberapa keluarga kembali memakai telepon rumah. Mereka menekankan manfaat batasan, risiko layar berlebih, dan pentingnya pembicaraan terbuka tentang teknologi.
Tungku Pengasapan Modern Kurangi Kerugian Ikan di Danau Malawi
Peneliti mengembangkan tungku pengasapan tertutup untuk pengolah ikan di Danau Malawi. Tungku ini memakai lebih sedikit kayu, mempercepat pengasapan, dan dirancang untuk mengurangi kerugian pasca-panen serta membantu pengolah.