Yeni çalışma, güncel büyük dil modellerinin iki dört basamaklı çarpma gibi basit görünen ama çok adımlı hesaplama gerektiren görevlerde neden başarısız olduğunu açıklıyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standard fine-tuning ile Implicit Chain of Thought (ICoT) yöntemini karşılaştırdı.
Standart ince ayar altında, iki ila 12 katmanlı modeller dört basamaklı çarpmalarda neredeyse hiç doğru yapamadı çünkü eğitim verilerindeki yüzeysel kalıplara takılıyorlardı ve ara değerleri saklama stratejisi öğrenemiyorlardı. Buna karşılık ICoT ile eğitilen model ara değerleri gizli durumda kodladı ve doğru sonuç üretti.
Araştırma ayrıca, ICoT modellerinin erken katmanlarda rakam çiftlerinin çarpımlarını hesaplayıp depoladığını, sonraki katmanların ise bu değerlerden basamakları oluşturduğunu gösterdi. Modellemede rakamların Fourier benzeri tabanlarla temsil edildiği ve Minkowski toplamına benzer bir işlemin ortaya çıktığı gözlendi. Basit bir eğitim hedefi eklemek iki katmanlı modelin doğruluğunu ICoT'ye yakın seviyelere çıkardı.
Zor kelimeler
- ince ayar — Bir modeli verilerle özel olarak ayarlama süreci.Standart ince ayar
- ara değer — Bir hesaplamada ara aşamada elde edilen sayı.ara değerleri
- yüzeysel kalıp — Veride görünen basit, derin olmayan düzen.yüzeysel kalıplara
- katmanlı — Birden fazla seviyeden veya tabakadan oluşan.
- kodlamak — Bilgi veya veri biçimini değiştirmek veya saklamak.kodladı
- depolamak — Veri veya nesneleri saklamak için kaydetmek.depoladığını
- eğitim hedefi — Modeli öğrenmesi için konan görev veya amaç.
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- ICoT'nin ara değerleri gizli kodlaması modelin performansını nasıl etkileyebilir? Açıklayın.
- İki katmanlı bir modelin doğruluğunu artırmak için başka hangi basit değişiklikler denenebilir? Kısa öneriler verin.
- Günlük hayatta çok adımlı hesaplama gerektiren bir örnek verin. Bu tür görevlerde yapay zeka modelleri kullanmanın fayda ve riskleri nelerdir?
İlgili makaleler
İngilizce öğrenen öğrencilerin sınıf içi gruplamasının etkileri
İki büyük çalışma, İngilizce öğrenen öğrencileri aynı sınıflarda toplamanın akademik sonuçlarını inceledi. Lise çalışması mezuniyet ve üniversite kayıtlarında düşüş buldu; ilkokul çalışması ortalama fark göstermedi ama farklı öğrencilere farklı yarar sağladı.
Manyetik Rezonansta (MRI) Yeni Fiziksel Model
Rice Üniversitesi ve Oak Ridge Ulusal Laboratuvarı araştırmacıları, moleküler hareketleri MRI sinyalleriyle ilişkilendiren fizik tabanlı bir model geliştirdi. Çalışma The Journal of Chemical Physics dergisinde yayımlandı ve kod açık kaynak verildi.
Paylaşmayı zorlaştırmak yanlış bilgiyi yavaşlatabilir
Kopenhag Üniversitesi araştırmacıları sosyal medyada yanlış bilginin hızla yayıldığını ve küçük bir duraklama ile paylaşmanın zorlaştırılmasının bunu yavaşlatabileceğini gösteren bir bilgisayar modeli önerdi. Öğrenme öğesi eklenince içerik kalitesi arttı.