LingVo.club
Seviye
Büyük dil modelleri neden dört basamaklı çarpımı zor yapıyor? — Seviye B2 — brown wooden blocks on white surface

Büyük dil modelleri neden dört basamaklı çarpımı zor yapıyor?CEFR B2

29 Ara 2025

Uyarlanmıştır: U. Chicago, Futurity CC BY 4.0

Fotoğraf: Brett Jordan, Unsplash

Seviye B2 – Üst orta
5 dk
267 kelime

Çalışma, büyük dil modellerinin uzun menzilli bağımlılıkları öğrenme yeteneği üzerine yeni bulgular sunuyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan'ın liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standart ince ayar (fine-tuning) ile Implicit Chain of Thought (ICoT) adlı farklı bir eğitim stratejisini karşılaştırdı. Araştırma iki dört basamaklı sayının çarpımı görevini, yani ara çarpımları ve ara toplamları tutmayı gerektiren uzun hesaplamaları test için seçti.

Standart ince ayar altında, iki ila 12 katmanlı modeller bu görevde %1'in altında doğruluk gösterdi; ekip bunun, modellerin eğitim verilerindeki yüzeysel kalıplara takılıp ara değerleri sonraki adımlar için saklamayı öğrenememesiyle ilgili olduğunu buldu. ICoT ile eğitilen model ise %100 doğruluğa ulaştı ve araştırmacılar modelin gizli durumlarından ara toplamları çözebildi. Bu, modelin gerekli bilgileri hatırlamayı öğrendiğini gösteriyor.

ICoT modellerinde dikkat (attention) zaman içinde farklı yollarla organize oldu: erken katmanlar belirli konumlarda rakam çiftlerinin çarpımlarını hesaplayıp depolarken, sonraki katmanlar bu değerleri alıp sonucun her basamağını oluşturdu. Araştırma ayrıca rakamların Fourier benzeri tabanlarla temsil edildiğini ve eğitim sürecinde Minkowski toplamına benzer geometrik bir işlemin ortaya çıktığını gözlemledi.

Ayrıca ekip, modele her adımda ara toplamları takip etmeyi öğreten bir eğitim hedefi ekledi; bu hedef iki katmanlı bir modelin doğruluğunu %99'a çıkardı ve model ICoT'ye benzer dikkat düzenleri ile yeni izleme stratejileri geliştirdi. Çalışma, yalnızca veri veya parametreyi büyütmenin bazı sınırlamaları gideremeyeceğini; mimari yönlendirme ve hedefe yönelik eğitim amaçlarının çok adımlı akıl yürütmeyi öğrenmede belirleyici olabileceğini vurguluyor. Tan, "Yapay zeka kritik karar alma süreçlerine giderek daha fazla entegre olurken, öğrenme ve düşünme biçimlerini anlamak hayati önem taşıyor" dedi.

  • Chicago Üniversitesi
  • MIT
  • Harvard University
  • University of Waterloo ve Google DeepMind

Zor kelimeler

  • ince ayarönceden eğitilmiş modelin hedefe göre eğitilmesi
  • bağımlılıkbir öğenin başka öğelere bağlı olma durumu
    bağımlılıkları
  • gizli durummodelin içindeki gözlemlenmeyen bilgi durumu
    gizli durumlarından
  • ara toplamhesaplamada ara adımda tutulan toplam
    ara toplamları
  • dikkatbir modelin girişteki bilgilere odaklanması
  • temsil etmekbir şeyi farklı bir biçimde gösterme veya kodlama
    temsil edildiğini
  • mimari yönlendirmebir modelin yapı veya akışının kasıtlı yönlendirilmesi
  • geometrikuzay veya şekillerle ilgili matematiksel özellikleri ifade eden

İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.

Tartışma soruları

  • ICoT veya ara değerleri takip eden hedefler, gündelik çok adımlı görevlerde nasıl fayda sağlayabilir? Bir veya iki örnek verin.
  • Ara değerleri modelin gizli durumlarında saklamasının hem avantajları hem de olası riskleri nelerdir?
  • Mimari yönlendirme ve hedefe yönelik eğitim amaçları uygulamada nasıl gerçekleştirilebilir? Kısa bir öneri yazın.

İlgili makaleler

X akışındaki kutuplaşmayı azaltan araç — Seviye B2
8 Ara 2025

X akışındaki kutuplaşmayı azaltan araç

Araştırmacılar, platformla işbirliği olmadan X akışındaki siyasi içerikleri kaldırmadan yeniden sıralayan bir web aracı geliştirdi. Deneyde aracın 2024 seçimleri sırasında gönüllülerin tutumlarını hafifçe iyileştirdiği görüldü.