Yeni çalışma, güncel büyük dil modellerinin iki dört basamaklı çarpma gibi basit görünen ama çok adımlı hesaplama gerektiren görevlerde neden başarısız olduğunu açıklıyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standard fine-tuning ile Implicit Chain of Thought (ICoT) yöntemini karşılaştırdı.
Standart ince ayar altında, iki ila 12 katmanlı modeller dört basamaklı çarpmalarda neredeyse hiç doğru yapamadı çünkü eğitim verilerindeki yüzeysel kalıplara takılıyorlardı ve ara değerleri saklama stratejisi öğrenemiyorlardı. Buna karşılık ICoT ile eğitilen model ara değerleri gizli durumda kodladı ve doğru sonuç üretti.
Araştırma ayrıca, ICoT modellerinin erken katmanlarda rakam çiftlerinin çarpımlarını hesaplayıp depoladığını, sonraki katmanların ise bu değerlerden basamakları oluşturduğunu gösterdi. Modellemede rakamların Fourier benzeri tabanlarla temsil edildiği ve Minkowski toplamına benzer bir işlemin ortaya çıktığı gözlendi. Basit bir eğitim hedefi eklemek iki katmanlı modelin doğruluğunu ICoT'ye yakın seviyelere çıkardı.
Zor kelimeler
- ince ayar — Bir modeli verilerle özel olarak ayarlama süreci.Standart ince ayar
- ara değer — Bir hesaplamada ara aşamada elde edilen sayı.ara değerleri
- yüzeysel kalıp — Veride görünen basit, derin olmayan düzen.yüzeysel kalıplara
- katmanlı — Birden fazla seviyeden veya tabakadan oluşan.
- kodlamak — Bilgi veya veri biçimini değiştirmek veya saklamak.kodladı
- depolamak — Veri veya nesneleri saklamak için kaydetmek.depoladığını
- eğitim hedefi — Modeli öğrenmesi için konan görev veya amaç.
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- ICoT'nin ara değerleri gizli kodlaması modelin performansını nasıl etkileyebilir? Açıklayın.
- İki katmanlı bir modelin doğruluğunu artırmak için başka hangi basit değişiklikler denenebilir? Kısa öneriler verin.
- Günlük hayatta çok adımlı hesaplama gerektiren bir örnek verin. Bu tür görevlerde yapay zeka modelleri kullanmanın fayda ve riskleri nelerdir?
İlgili makaleler
Yapay zekâlı manşetle yaşlılarda zayıflık erken tespit ediliyor
Arizona Üniversitesi araştırmacıları, uyluğa takılan yumuşak bir manşet ve yapay zekâ kullanarak yaşlı yetişkinlerde zayıflığın erken işaretlerini tespit etti. Cihaz veriyi cihaz üzerinde işler ve veri iletimini büyük ölçüde azaltır.
2025 Yardım Kesintileri ve Sağlık Hizmetleri
2025deki büyük uluslararası yardım kesintileri, ABD kararlarıyla başladı ve birçok düşük ve orta gelirli ülkede sağlık ile insani hizmetlerin durmasına yol açtı. Bazı bağışçılar yeni taahhütler verirken yerel üretim planları gündeme geldi.