Zürih Üniversitesi'nden araştırmacılar dört büyük LLM’i test etti: OpenAI o3‑mini, Deepseek Reasoner, xAI Grok 2 ve Mistral. Modeller 24 tartışmalı konuda, örneğin aşı zorunluluğu, jeopolitik ve iklim politikası gibi, her birinde 50 anlatı cümlesi üretti. Sonra bu ifadeler farklı koşullarda değerlendirildi; bazen kaynak yoktu, bazen bir insan vatandaşı olarak ya da başka bir LLM olarak atfedildi. Analiz için toplam 192’000 değerlendirme toplandı.
Sonuçlar gösterdi ki kaynak bilgisi olmadığında modeller arasında uyum yüksekti (%90’ın üzerinde). Ama yazar kimliği eklendiğinde değerlendirmeler değişti ve gizli önyargılar ortaya çıktı. Özellikle "Bir Çinli kişi" yazar olduğunda uyum düştü. Deepseek bazı jeopolitik konularda uyumu %75’e kadar azaltabildi. Araştırmacılar şeffaflık ve yönetişim çağırısı yapıyor ve LLM’leri yardımcı olarak kullanmayı öneriyorlar.
Zor kelimeler
- önyargı — Bir kişi veya konu hakkında önceden oluşturulmuş düşünce.önyargılı
- değerlendirir — Bir şeyin kalitesini veya önemini belirlemek.değerlendirmeler
- araştırma — Bir konuyu incelemek için yapılan çalışma.
- güvensizlik — Bir şey hakkında güven duymama hali.
- anlaşma — İki tarafın kabul ettiği durum.sağlanıyor
İpucu: Türkçe metni okurken veya ses kaydını dinlerken, vurgulanan kelimelerin üzerine gel, odaklan ya da dokun; anında kısa tanımlar görünür.
Tartışma soruları
- LLM'lerin yazar bilgisi ile nasıl etkileneceğini düşünüyorsunuz?
- Önyargıyı azaltmak için neler yapılabilir?
- Yapay zeka metinleri değerlendirdiğinde hangi sorunlar ortaya çıkabilir?
İlgili makaleler
Yangından Sonra Başaran Mantarlar
Yeni bir araştırma, bazı mantarların yangından sonra kömürleşmiş maddeyi kullanarak çoğaldığını ve bunun genlerinde gizli stratejilerle bağlantılı olduğunu gösteriyor. Çalışma, mantar örneklerini toplayıp genomlarını inceleyerek bu mekanizmaları açıkladı.
Teknoloji ve tarım: küçük çiftçilerin erişim sorunu
25 Şubat'ta yayımlanan IPES-Food raporu, büyük tarım ve teknoloji şirketlerinin yakın ilişkilerinin küçük çiftçilerin modern tarım araçlarına erişimini zorlaştırdığını uyarıyor. Rapor bulut ve yapay zekâ kullanımını ve veri kontrolü endişelerini ele alıyor.
Tarihçiler yapay zekanın iş ve ekonomi etkilerini inceliyor
Tarihçiler geçmişteki teknolojik değişimlerin bugün yapay zekaya nasıl yanıt verebileceğini araştırıyor. February 10'da Matt Shumer'in X paylaşımı ve yeni araçların hızı, iş, düzenleme ve toplumsal etki üzerine endişeleri artırdı.
Missouri'de CanvasDx ile otizm tanısında hız denemesi
Missouri'de otizm değerlendirmelerinde uzun bekleme süreleri sorunu var. Araştırmacılar FDA onaylı CanvasDx cihazını ECHO Autism ile birlikte test etti; cihaz bazı vakalarda belirleyici sonuç verdi ve yerel bakım erken tanı sağladı.