Para peneliti di North Carolina State University menelaah bagaimana model bahasa besar membuat keputusan terkait keamanan dan menguji teknik pelatihan yang lebih selektif. Mereka mengamati dua masalah utama: biaya penyelarasan, yaitu penurunan akurasi akibat pelatihan keamanan, dan penyelarasan superfisial yang menilai bahaya pada tahap awal sehingga mudah dilewati pengguna.
Untuk menjelaskan hal ini tim mengusulkan Hipotesis Penyelarasan Keamanan Superfisial (SSAH). Hipotesis tersebut menyatakan bahwa model sering kali memutuskan aspek keamanan sejak dini dan bertindak berdasarkan sinyal biner aman/tidak aman. Contohnya, permintaan instruksi mencuri biasanya ditolak, namun permintaan serupa yang diberi alasan baik kadang kali diterima oleh model.
Berdasarkan gagasan itu, peneliti mencari bagian model yang kritis terhadap keputusan keamanan dan mengidentifikasi komponen neural tertentu yang memengaruhi pemenuhan atau penolakan permintaan. Mereka menunjukkan bahwa dengan "membekukan" neuron-neuron kritis saat proses fine-tuning, model dapat tetap memelihara perilaku keamanannya sambil belajar tugas baru. Pendekatan ini dilaporkan mengurangi biaya penyelarasan tanpa mengorbankan penyelarasan keamanan.
Tim menekankan perlunya metode yang memungkinkan model menilai ulang aspek keamanan sepanjang proses pembuatan respons. Penelitian ini dipresentasikan pada Fourteenth International Conference on Learning Representations (ICLR2026). Kode dan informasi terkait tersedia di https://ssa-h.github.io/. Sumber: North Carolina State University.
Kata-kata sulit
- penyelarasan — proses menyesuaikan model agar mematuhi aturan keamananbiaya penyelarasan, penyelarasan superfisial, penyelarasan keamanan
- superfisial — bersifat dangkal, menilai sesuatu secara awal saja
- hipotesis — penjelasan sementara yang perlu diuji dengan bukti
- sinyal biner — tanda dua nilai, misal aman atau tidak aman
- neuron — unit pemrosesan kecil dalam jaringan saraf buatanneuron-neuron
- membekukan — menghentikan perubahan pada bagian model sementara
- menilai ulang — memeriksa kembali suatu keputusan atau penilaian
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Apa keuntungan dan risiko membekukan neuron kritis saat melatih model baru? Jelaskan dengan singkat.
- Bagaimana menurut Anda model bisa menilai ulang aspek keamanan sepanjang proses pembuatan respons?
- Dalam situasi apa teknik mengidentifikasi dan membekukan neuron kritis paling berguna bagi pengembang model?
Artikel terkait
Dua Sistem Terinspirasi Alam untuk Menjaga Panel Surya dari Debu
Peneliti Mesir mengembangkan dua sistem terinspirasi alam untuk membersihkan debu gurun dari panel surya. Satu sistem pakai getaran listrik dan lapisan nano, dan satu lagi digerakkan angin; uji lapang menunjukkan pengurangan kehilangan output.
Kebutuhan Psikologis Dasar Mempengaruhi Perilaku Minum Alkohol
Penelitian menunjukkan orang yang kebutuhan psikologisnya terpenuhi cenderung minum dengan lebih aman. Studi mengaitkan otonomi, kompetensi, dan koneksi dengan pilihan minum yang lebih bertanggung jawab dan risiko penyalahgunaan lebih rendah.
Tungku Pengasapan Modern Kurangi Kerugian Ikan di Danau Malawi
Peneliti mengembangkan tungku pengasapan tertutup untuk pengolah ikan di Danau Malawi. Tungku ini memakai lebih sedikit kayu, mempercepat pengasapan, dan dirancang untuk mengurangi kerugian pasca-panen serta membantu pengolah.