Büyük dil modelleri neden dört basamaklı çarpımı zor yapıyor?
Chicago Üniversitesi liderliğindeki bir ekip, standart ince ayar ve Implicit Chain of Thought (ICoT) eğitimi arasındaki farkı inceledi. Çalışma, ara değerleri saklama yetisinin uzun hesaplamalar için gerekli olduğunu gösteriyor.