Tim peneliti dari beberapa universitas membandingkan pelatihan standar dengan metode Implicit Chain of Thought (ICoT). Mereka fokus pada ketergantungan jangka panjang, yaitu kebutuhan model untuk menyimpan produk parsial dan jumlah berjalan selama perhitungan panjang.
Hasilnya, model yang dilatih secara standar dengan dua sampai dua belas lapis memiliki akurasi sangat rendah, sementara model ICoT mencapai 100% akurasi. Peneliti menemukan bahwa ICoT mengkodekan nilai antara dalam hidden states dan mengatur jalur perhatian untuk menyimpan lalu mengambil kembali informasi itu. Menambahkan tujuan pelatihan untuk melacak jumlah berjalan meningkatkan akurasi model dua lapis menjadi sangat tinggi tanpa supervisi chain-of-thought eksplisit.
Kata-kata sulit
- ketergantungan — kebutuhan model menyimpan informasi dalam waktu lamaketergantungan jangka panjang
- produk — hasil bagian dari perhitungan atau operasiproduk parsial
- jumlah berjalan — jumlah yang terus diperbarui selama perhitungan
- jalur perhatian — cara model memilih dan fokus pada informasi
- pelatihan — proses mengajar model agar bisa bekerjapelatihan standar, tujuan pelatihan
- akurasi — tingkat benar hasil atau prediksi model
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Mengapa menurutmu melacak jumlah berjalan bisa meningkatkan akurasi model?
- Apakah kamu pikir metode seperti ICoT berguna untuk tugas perhitungan panjang? Mengapa?
Artikel terkait
Kekerasan Digital terhadap Jurnalis dan Aktivis Perempuan
Kekerasan digital terhadap jurnalis dan aktivis perempuan di Indonesia semakin terlihat dalam lima tahun terakhir. Serangan online meliputi doxing, manipulasi foto, peretasan dan DDoS; korban melaporkan perlindungan kelembagaan yang terbatas.
Bagaimana orang dengan gangguan penglihatan menilai kedatangan mobil
Studi baru menguji bagaimana orang dengan degenerasi makula terkait usia (AMD) menilai waktu kedatangan kendaraan menggunakan realitas virtual dan suara mobil. Hasilnya: peserta AMD sangat mirip dengan orang berpenglihatan normal dan tidak hanya mengandalkan suara.
Kecerdasan Buatan Generatif Mengubah Pengalaman Perjalanan
Profesor bisnis menjelaskan bahwa kecerdasan buatan generatif dapat membaca suasana hati pelancong dan menyesuaikan saran perjalanan secara real time. Teknologi ini bekerja sebelum, selama, dan setelah perjalanan, namun menimbulkan kekhawatiran privasi dan etika.
Kota Asia Atasi Kemacetan dengan Transportasi Bersih
Kemacetan di banyak kota Asia menaikkan polusi dan merugikan ekonomi. Beberapa kota, seperti New Delhi, Bangkok, Filipina, dan Jakarta, memperluas metro, menambah bus listrik, dan menerapkan kebijakan parkir untuk mengurangi lalu lintas.