Yeni çalışma, güncel büyük dil modellerinin iki dört basamaklı çarpma gibi basit görünen ama çok adımlı hesaplama gerektiren görevlerde neden başarısız olduğunu açıklıyor. Chicago Üniversitesi'nden Xiaoyan Bai ve Chenhao Tan liderliğindeki ekip, MIT, Harvard University, University of Waterloo ve Google DeepMind iş birlikçileriyle birlikte standard fine-tuning ile Implicit Chain of Thought (ICoT) yöntemini karşılaştırdı.
Standart ince ayar altında, iki ila 12 katmanlı modeller dört basamaklı çarpmalarda neredeyse hiç doğru yapamadı çünkü eğitim verilerindeki yüzeysel kalıplara takılıyorlardı ve ara değerleri saklama stratejisi öğrenemiyorlardı. Buna karşılık ICoT ile eğitilen model ara değerleri gizli durumda kodladı ve doğru sonuç üretti.
Araştırma ayrıca, ICoT modellerinin erken katmanlarda rakam çiftlerinin çarpımlarını hesaplayıp depoladığını, sonraki katmanların ise bu değerlerden basamakları oluşturduğunu gösterdi. Modellemede rakamların Fourier benzeri tabanlarla temsil edildiği ve Minkowski toplamına benzer bir işlemin ortaya çıktığı gözlendi. Basit bir eğitim hedefi eklemek iki katmanlı modelin doğruluğunu ICoT'ye yakın seviyelere çıkardı.
Zor kelimeler
- ince ayar — Bir modeli verilerle özel olarak ayarlama süreci.Standart ince ayar
- ara değer — Bir hesaplamada ara aşamada elde edilen sayı.ara değerleri
- yüzeysel kalıp — Veride görünen basit, derin olmayan düzen.yüzeysel kalıplara
- katmanlı — Birden fazla seviyeden veya tabakadan oluşan.
- kodlamak — Bilgi veya veri biçimini değiştirmek veya saklamak.kodladı
- depolamak — Veri veya nesneleri saklamak için kaydetmek.depoladığını
- eğitim hedefi — Modeli öğrenmesi için konan görev veya amaç.
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- ICoT'nin ara değerleri gizli kodlaması modelin performansını nasıl etkileyebilir? Açıklayın.
- İki katmanlı bir modelin doğruluğunu artırmak için başka hangi basit değişiklikler denenebilir? Kısa öneriler verin.
- Günlük hayatta çok adımlı hesaplama gerektiren bir örnek verin. Bu tür görevlerde yapay zeka modelleri kullanmanın fayda ve riskleri nelerdir?
İlgili makaleler
Yapay zekâlı manşetle yaşlılarda zayıflık erken tespit ediliyor
Arizona Üniversitesi araştırmacıları, uyluğa takılan yumuşak bir manşet ve yapay zekâ kullanarak yaşlı yetişkinlerde zayıflığın erken işaretlerini tespit etti. Cihaz veriyi cihaz üzerinde işler ve veri iletimini büyük ölçüde azaltır.
Asya şehirlerinde trafik, kirlilik ve temiz ulaşım
Asya'nın birçok kentinde trafik sıkışıklığı ve hava kirliliği artıyor; bu durum ekonomilere zarar veriyor. New Delhi, Bangkok, Metro Manila ve Jakarta gibi şehirler elektrikli otobüsler, metro genişletmeleri ve politika değişiklikleriyle ulaşımı temizlemeye çalışıyor.
Fare beyininde günlük etkinlik kayması
Araştırmacılar fare modellerinde tek hücre düzeyinde beyin etkinliğini izlemek için yeni deneysel ve hesaplamalı yöntemler geliştirdi. Çalışma, beyinde gün boyunca subkortikal katmanlardan kortekse doğru düzenli bir etkinlik kayması olduğunu gösterdi.
TikTok ve Somali'de Klan Siyaseti
Araştırma TikTok’un Somali klan siyasetini yeniden şekillendirdiğini, canlı yayın mücadeleleri ve dijital coin bağışlarının çatışmaları finanse ettiğini gösteriyor. Platform 2020 başından itibaren popülerleşti ve 3.9 million aktif kullanıcıya ulaştı.