Çalışma, büyük dil modellerinin uzun menzilli bağımlılıkları öğrenme yeteneği üzerine yeni bulgular sunuyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan'ın liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standart ince ayar (fine-tuning) ile Implicit Chain of Thought (ICoT) adlı farklı bir eğitim stratejisini karşılaştırdı. Araştırma iki dört basamaklı sayının çarpımı görevini, yani ara çarpımları ve ara toplamları tutmayı gerektiren uzun hesaplamaları test için seçti.
Standart ince ayar altında, iki ila 12 katmanlı modeller bu görevde %1'in altında doğruluk gösterdi; ekip bunun, modellerin eğitim verilerindeki yüzeysel kalıplara takılıp ara değerleri sonraki adımlar için saklamayı öğrenememesiyle ilgili olduğunu buldu. ICoT ile eğitilen model ise %100 doğruluğa ulaştı ve araştırmacılar modelin gizli durumlarından ara toplamları çözebildi. Bu, modelin gerekli bilgileri hatırlamayı öğrendiğini gösteriyor.
ICoT modellerinde dikkat (attention) zaman içinde farklı yollarla organize oldu: erken katmanlar belirli konumlarda rakam çiftlerinin çarpımlarını hesaplayıp depolarken, sonraki katmanlar bu değerleri alıp sonucun her basamağını oluşturdu. Araştırma ayrıca rakamların Fourier benzeri tabanlarla temsil edildiğini ve eğitim sürecinde Minkowski toplamına benzer geometrik bir işlemin ortaya çıktığını gözlemledi.
Ayrıca ekip, modele her adımda ara toplamları takip etmeyi öğreten bir eğitim hedefi ekledi; bu hedef iki katmanlı bir modelin doğruluğunu %99'a çıkardı ve model ICoT'ye benzer dikkat düzenleri ile yeni izleme stratejileri geliştirdi. Çalışma, yalnızca veri veya parametreyi büyütmenin bazı sınırlamaları gideremeyeceğini; mimari yönlendirme ve hedefe yönelik eğitim amaçlarının çok adımlı akıl yürütmeyi öğrenmede belirleyici olabileceğini vurguluyor. Tan, "Yapay zeka kritik karar alma süreçlerine giderek daha fazla entegre olurken, öğrenme ve düşünme biçimlerini anlamak hayati önem taşıyor" dedi.
- Chicago Üniversitesi
- MIT
- Harvard University
- University of Waterloo ve Google DeepMind
Zor kelimeler
- ince ayar — önceden eğitilmiş modelin hedefe göre eğitilmesi
- bağımlılık — bir öğenin başka öğelere bağlı olma durumubağımlılıkları
- gizli durum — modelin içindeki gözlemlenmeyen bilgi durumugizli durumlarından
- ara toplam — hesaplamada ara adımda tutulan toplamara toplamları
- dikkat — bir modelin girişteki bilgilere odaklanması
- temsil etmek — bir şeyi farklı bir biçimde gösterme veya kodlamatemsil edildiğini
- mimari yönlendirme — bir modelin yapı veya akışının kasıtlı yönlendirilmesi
- geometrik — uzay veya şekillerle ilgili matematiksel özellikleri ifade eden
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- ICoT veya ara değerleri takip eden hedefler, gündelik çok adımlı görevlerde nasıl fayda sağlayabilir? Bir veya iki örnek verin.
- Ara değerleri modelin gizli durumlarında saklamasının hem avantajları hem de olası riskleri nelerdir?
- Mimari yönlendirme ve hedefe yönelik eğitim amaçları uygulamada nasıl gerçekleştirilebilir? Kısa bir öneri yazın.
İlgili makaleler
NeuroBridge: otistik iletişimi anlamaya yarayan yapay zekâ aracı
Tufts Üniversitesi araştırmacıları NeuroBridge adlı bir yapay zekâ aracı geliştirdi. Araç, nörotipik kişilere otistik insanların iletişim tercihlerini göstermeyi ve daha açık, doğrudan konuşmayı öğrenmelerini sağlamayı amaçlıyor.