Para peneliti di North Carolina State University menelaah bagaimana model bahasa besar membuat keputusan terkait keamanan dan menguji teknik pelatihan yang lebih selektif. Mereka mengamati dua masalah utama: biaya penyelarasan, yaitu penurunan akurasi akibat pelatihan keamanan, dan penyelarasan superfisial yang menilai bahaya pada tahap awal sehingga mudah dilewati pengguna.
Untuk menjelaskan hal ini tim mengusulkan Hipotesis Penyelarasan Keamanan Superfisial (SSAH). Hipotesis tersebut menyatakan bahwa model sering kali memutuskan aspek keamanan sejak dini dan bertindak berdasarkan sinyal biner aman/tidak aman. Contohnya, permintaan instruksi mencuri biasanya ditolak, namun permintaan serupa yang diberi alasan baik kadang kali diterima oleh model.
Berdasarkan gagasan itu, peneliti mencari bagian model yang kritis terhadap keputusan keamanan dan mengidentifikasi komponen neural tertentu yang memengaruhi pemenuhan atau penolakan permintaan. Mereka menunjukkan bahwa dengan "membekukan" neuron-neuron kritis saat proses fine-tuning, model dapat tetap memelihara perilaku keamanannya sambil belajar tugas baru. Pendekatan ini dilaporkan mengurangi biaya penyelarasan tanpa mengorbankan penyelarasan keamanan.
Tim menekankan perlunya metode yang memungkinkan model menilai ulang aspek keamanan sepanjang proses pembuatan respons. Penelitian ini dipresentasikan pada Fourteenth International Conference on Learning Representations (ICLR2026). Kode dan informasi terkait tersedia di https://ssa-h.github.io/. Sumber: North Carolina State University.
Kata-kata sulit
- penyelarasan — proses menyesuaikan model agar mematuhi aturan keamananbiaya penyelarasan, penyelarasan superfisial, penyelarasan keamanan
- superfisial — bersifat dangkal, menilai sesuatu secara awal saja
- hipotesis — penjelasan sementara yang perlu diuji dengan bukti
- sinyal biner — tanda dua nilai, misal aman atau tidak aman
- neuron — unit pemrosesan kecil dalam jaringan saraf buatanneuron-neuron
- membekukan — menghentikan perubahan pada bagian model sementara
- menilai ulang — memeriksa kembali suatu keputusan atau penilaian
Tips: arahkan kursor, fokus, atau ketuk kata yang disorot di dalam teks untuk melihat definisi singkat sambil membaca atau mendengarkan.
Pertanyaan diskusi
- Apa keuntungan dan risiko membekukan neuron kritis saat melatih model baru? Jelaskan dengan singkat.
- Bagaimana menurut Anda model bisa menilai ulang aspek keamanan sepanjang proses pembuatan respons?
- Dalam situasi apa teknik mengidentifikasi dan membekukan neuron kritis paling berguna bagi pengembang model?
Artikel terkait
Warga Mile Four Bamenda Beralih ke Tenaga Surya karena Pemadaman Listrik
Pemadaman listrik panjang dan tidak menentu di Mile Four, Bamenda mendorong warga mencari solusi lokal. Mereka mengumpulkan dana untuk trafo komunitas dan banyak memasang sistem surya terdesentralisasi untuk kebutuhan rumah tangga dan layanan publik.
Filter nanofiber yang menangkap CO2 di dalam gedung
Para peneliti mengembangkan filter udara berbahan nanofiber karbon yang menangkap karbon dioksida di dalam bangunan. Filter ini kompatibel dengan sistem HVAC, bisa dipakai ulang, dan berpotensi menurunkan penggunaan energi dan emisi.
AI dan risiko bagi komunitas LGBTQ+
Kecerdasan buatan semakin hadir, tetapi data dan desain model dapat menghasilkan bias terhadap orang LGBTQ+. Advokat meminta perlindungan lebih kuat, kerja sama dengan pengembang, dan larangan pada sistem yang mendeteksi atau mengklasifikasi gender.