LingVo.club
Seviye
Büyük dil modelleri neden dört basamaklı çarpımı zor yapıyor? — Seviye B1 — brown wooden blocks on white surface

Büyük dil modelleri neden dört basamaklı çarpımı zor yapıyor?CEFR B1

29 Ara 2025

Uyarlanmıştır: U. Chicago, Futurity CC BY 4.0

Fotoğraf: Brett Jordan, Unsplash

Seviye B1 – Orta
3 dk
146 kelime

Yeni çalışma, güncel büyük dil modellerinin iki dört basamaklı çarpma gibi basit görünen ama çok adımlı hesaplama gerektiren görevlerde neden başarısız olduğunu açıklıyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standard fine-tuning ile Implicit Chain of Thought (ICoT) yöntemini karşılaştırdı.

Standart ince ayar altında, iki ila 12 katmanlı modeller dört basamaklı çarpmalarda neredeyse hiç doğru yapamadı çünkü eğitim verilerindeki yüzeysel kalıplara takılıyorlardı ve ara değerleri saklama stratejisi öğrenemiyorlardı. Buna karşılık ICoT ile eğitilen model ara değerleri gizli durumda kodladı ve doğru sonuç üretti.

Araştırma ayrıca, ICoT modellerinin erken katmanlarda rakam çiftlerinin çarpımlarını hesaplayıp depoladığını, sonraki katmanların ise bu değerlerden basamakları oluşturduğunu gösterdi. Modellemede rakamların Fourier benzeri tabanlarla temsil edildiği ve Minkowski toplamına benzer bir işlemin ortaya çıktığı gözlendi. Basit bir eğitim hedefi eklemek iki katmanlı modelin doğruluğunu ICoT'ye yakın seviyelere çıkardı.

Zor kelimeler

  • ince ayarBir modeli verilerle özel olarak ayarlama süreci.
    Standart ince ayar
  • ara değerBir hesaplamada ara aşamada elde edilen sayı.
    ara değerleri
  • yüzeysel kalıpVeride görünen basit, derin olmayan düzen.
    yüzeysel kalıplara
  • katmanlıBirden fazla seviyeden veya tabakadan oluşan.
  • kodlamakBilgi veya veri biçimini değiştirmek veya saklamak.
    kodladı
  • depolamakVeri veya nesneleri saklamak için kaydetmek.
    depoladığını
  • eğitim hedefiModeli öğrenmesi için konan görev veya amaç.

İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.

Tartışma soruları

  • ICoT'nin ara değerleri gizli kodlaması modelin performansını nasıl etkileyebilir? Açıklayın.
  • İki katmanlı bir modelin doğruluğunu artırmak için başka hangi basit değişiklikler denenebilir? Kısa öneriler verin.
  • Günlük hayatta çok adımlı hesaplama gerektiren bir örnek verin. Bu tür görevlerde yapay zeka modelleri kullanmanın fayda ve riskleri nelerdir?

İlgili makaleler