Çalışma, büyük dil modellerinin uzun menzilli bağımlılıkları öğrenme yeteneği üzerine yeni bulgular sunuyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan'ın liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standart ince ayar (fine-tuning) ile Implicit Chain of Thought (ICoT) adlı farklı bir eğitim stratejisini karşılaştırdı. Araştırma iki dört basamaklı sayının çarpımı görevini, yani ara çarpımları ve ara toplamları tutmayı gerektiren uzun hesaplamaları test için seçti.
Standart ince ayar altında, iki ila 12 katmanlı modeller bu görevde %1'in altında doğruluk gösterdi; ekip bunun, modellerin eğitim verilerindeki yüzeysel kalıplara takılıp ara değerleri sonraki adımlar için saklamayı öğrenememesiyle ilgili olduğunu buldu. ICoT ile eğitilen model ise %100 doğruluğa ulaştı ve araştırmacılar modelin gizli durumlarından ara toplamları çözebildi. Bu, modelin gerekli bilgileri hatırlamayı öğrendiğini gösteriyor.
ICoT modellerinde dikkat (attention) zaman içinde farklı yollarla organize oldu: erken katmanlar belirli konumlarda rakam çiftlerinin çarpımlarını hesaplayıp depolarken, sonraki katmanlar bu değerleri alıp sonucun her basamağını oluşturdu. Araştırma ayrıca rakamların Fourier benzeri tabanlarla temsil edildiğini ve eğitim sürecinde Minkowski toplamına benzer geometrik bir işlemin ortaya çıktığını gözlemledi.
Ayrıca ekip, modele her adımda ara toplamları takip etmeyi öğreten bir eğitim hedefi ekledi; bu hedef iki katmanlı bir modelin doğruluğunu %99'a çıkardı ve model ICoT'ye benzer dikkat düzenleri ile yeni izleme stratejileri geliştirdi. Çalışma, yalnızca veri veya parametreyi büyütmenin bazı sınırlamaları gideremeyeceğini; mimari yönlendirme ve hedefe yönelik eğitim amaçlarının çok adımlı akıl yürütmeyi öğrenmede belirleyici olabileceğini vurguluyor. Tan, "Yapay zeka kritik karar alma süreçlerine giderek daha fazla entegre olurken, öğrenme ve düşünme biçimlerini anlamak hayati önem taşıyor" dedi.
- Chicago Üniversitesi
- MIT
- Harvard University
- University of Waterloo ve Google DeepMind
Zor kelimeler
- ince ayar — önceden eğitilmiş modelin hedefe göre eğitilmesi
- bağımlılık — bir öğenin başka öğelere bağlı olma durumubağımlılıkları
- gizli durum — modelin içindeki gözlemlenmeyen bilgi durumugizli durumlarından
- ara toplam — hesaplamada ara adımda tutulan toplamara toplamları
- dikkat — bir modelin girişteki bilgilere odaklanması
- temsil etmek — bir şeyi farklı bir biçimde gösterme veya kodlamatemsil edildiğini
- mimari yönlendirme — bir modelin yapı veya akışının kasıtlı yönlendirilmesi
- geometrik — uzay veya şekillerle ilgili matematiksel özellikleri ifade eden
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- ICoT veya ara değerleri takip eden hedefler, gündelik çok adımlı görevlerde nasıl fayda sağlayabilir? Bir veya iki örnek verin.
- Ara değerleri modelin gizli durumlarında saklamasının hem avantajları hem de olası riskleri nelerdir?
- Mimari yönlendirme ve hedefe yönelik eğitim amaçları uygulamada nasıl gerçekleştirilebilir? Kısa bir öneri yazın.
İlgili makaleler
Sözlü Bilgiyi Korumak için Arşiv ve Kayıt Yöntemleri
OpenSpeaks Archives 2024'te başlatıldı ve yerli sözlü bilgilerin alıntılanmasına yardımcı oluyor. Röportajlarda Van Gujjari dili için ses ve görüntü kayıtlarının önemine, topluluk haklarına ve hızlı geri vermenin gereğine vurgu yapıldı.
Uygulama ve mesajla öğrencilerin ruh sağlığı iyileşti
Çok merkezli bir çalışma, üniversite öğrencilerinde depresyon, anksiyete ve yeme bozukluklarını azaltmak için akıllı telefon uygulaması ve kısa mesaj koçluğunu test etti. Denemeye 6,200'den fazla öğrenci katıldı ve sonuçlar Nature Human Behavior dergisinde yayımlandı.
Çocuğa Telefon Vermek: Ev Hattı Bir Seçenek
Virginia Tech uzmanları, bazı ailelerin akıllı telefon yerine ev hattına döndüğünü ve bunun iletişim açısından bazı faydaları olabileceğini söylüyor. Uzmanlar telefon kullanımının olası zararları ve ebeveynlerin soracağı üç pratik soruyu paylaşıyor.