Araştırmacılar, modern yapay dil modellerinin gerçek dünyayı nasıl temsil ettiğini ve olay olasılıklarını içsel olarak kodlayıp kodlamadığını araştırdı. Çalışma Brown Üniversitesi'nden bir ekip tarafından yapıldı ve Rio de Janeiro'da düzenlenen International Conference on Learning Representations'da sunuldu. Çalışmayı yöneten Michael Lepori, bulguların "dil modellerinin gerçek dünyanın nedensel kısıtları gibi bir şeyi kodladığına dair bazı kanıtlar" gösterdiğini ve bu kodlamanın insan yargılarını öngörecek biçimde olduğunu belirtti.
Deneyde ekip, farklı olasılıklara sahip olayları tanımlayan cümleler kullandı: yaygın örnekler, düşük olasılıklı olaylar, imkânsız durumlar ve anlamsız ifadeler. Verilen örnekler arasında "Birisi bir içeceği buzla soğuttu", "Birisi bir içeceği karla soğuttu", "Birisi bir içeceği ateşle soğuttu" ve "Birisi bir içeceği dünle soğuttu" vardı. Araştırmacılar her cümle için modellerin içsel matematiksel durumlarını incelediler; bu mekanistik yorumlama olarak adlandırılıyor ve modelin iç 'beyin durumunu' tersine mühendislikle ortaya çıkarmayı hedefliyor.
Deneyler, OpenAI'nin GPT‑2'si, Meta'nın Llama 3.2'si ve Google'ın Gemma 2'si dahil olmak üzere birkaç açık kaynak model üzerinde yürütüldü, böylece modelden bağımsız sonuçlar elde edilmeye çalışıldı. Çalışma, yeterince büyük modellerin olasılık kategorilerine karşılık gelen belirgin iç vektörler geliştirdiğini tespit etti; bu vektörler benzer kategorileri bile yaklaşık %85 doğrulukla ayırt edebiliyordu. Ayrıca bu vektörler insan belirsizliğini yansıtıyordu: belirsiz ifadelerde model çıktıları, insan anketlerindeki bölünmüş yargılarla örtüştü. Araştırmacılar bu vektörlerin 2 milyardan fazla parametreye sahip modellerde ortaya çıkmaya başladığını ve bunun bugünün trilyonun üzerindeki parametreli modellerine kıyasla görece küçük bir boyut olduğunu belirtti.
- Mekanik yorumlama modellerin kodladıklarını açığa çıkarabilir.
- İç vektörler insan olasılık yargılarıyla örtüşüyor.
- Buluntular daha akıllı ve güvenilir modeller geliştirmede yardımcı olabilir.
Zor kelimeler
- temsil etmek — bir şeyi sözcüklerle veya işaretlerle göstermetemsil ettiğini
- olasılık — bir olayın gerçekleşme ihtimalinin derecesiolasılıklarını, olasılıklara
- kodlamak — bilgiyi bir biçimde saklama veya yazma eylemikodlayıp, kodlamadığını
- içsel — bir sistemin veya modelin içinde olan, dahili
- mekanistik — bir şeyi parçalarına ayırıp işleyişini inceleyen
- vektör — sayısal değerlerle ifade edilen çok boyutlu dizivektörler
- belirsizlik — sonucun veya bilginin kesin olmama durumubelirsizliğini
- parametre — bir modelin davranışını belirleyen sayı veya değerparametreye
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- Bu çalışmanın bulguları daha güvenilir yapay zeka modelleri geliştirmeye nasıl yardımcı olabilir? Nedenleriyle açıklayın.
- Model içindeki vektörlerin insan belirsizlik yargılarıyla örtüşmesi ne anlama geliyor? Bu durumun artıları ve eksileri neler olabilir?
- Araştırmacıların çeşitli açık kaynak modelleri kullanması neden önemli olabilir? Model bağımsız sonuçlar hakkında ne söyleyebilirsiniz?
İlgili makaleler
Yeni çalışma: Beynin mikroskobik parçaları büyük ağları oluşturuyor
Nature Communications’da yayımlanan araştırma, beyin görüntüleri, genetik ve moleküler haritaları birleştirerek hücre ve kimyasalların fMRI ile görülen büyük beyin ağlarına nasıl bağlı olduğunu gösteriyor. Bulgular biliş, yaşlanma ve bazı ruhsal bozukmaları etkileyebilir.
Yapay zekâ daha iyi başlıklar yazmayı öğrendi
Yale School of Management'ın araştırması, yapay zekânın başlıkların neden işe yaradığını öğrenince daha etkileyici ve güvenilir içerik ürettiğini gösteriyor. Ekip A/B testi verilerinden hipotezler çıkarıp bunları doğrulayarak başlıkları iyileştirdi.