نشرت الدراسة التي قادها فيديريكو جيرماني وجيوفاني سبيتالي في جامعة زيورخ نتائج تجربة على أربعة نماذج واسعة الاستخدام: OpenAI o3-mini وDeepseek Reasoner وxAI Grok 2 وMistral. أنشأ كل نموذج خمسين عبارة سردية عن 24 موضوعاً مثيراً للجدل، ثم قيّم الباحثان تلك العبارات في أوضاع أُخفي فيها المصدر أو نُسبت إلى مؤلفين مختلفين. جمع الفريق 192’000 تقييماً لتحليل أنماط الحكم.
عندما لم تُذكر معلومات عن الكاتب، اتفقت النماذج مع بعضها بدرجة عالية، أكثر من 90%. لكن إضافة هوية مؤلف خيالي كشف تحيّزاً خفياً قوياً؛ انخفض الاتفاق بين الأنظمة بشدة رغم بقاء النصوص متطابقة. كان هناك تحيّز واضح ضد الصين عبر النماذج، حتى لدى Deepseek الخاص بالصين. كما وجدت الدراسة أن النماذج تثق أكثر بالمؤلفين البشر مقارنة بذكاء اصطناعي.
يحذر الباحثان من أن هذه التحيّزات مهمة للتطبيقات الحقيقية مثل مراقبة المحتوى والتوظيف والمراجعات الأكاديمية أو الصحافة. ويحثان على الشفافية والحكم المؤسسي واستخدام النماذج كمساعدات للتفكير لا كبدائل أو محكّمين نهائيين.
كلمات صعبة
- تحيز — ميل للانحياز ضد شيء أو شخص.تحيزات
- الكُتّاب — أشخاص يكتبون نصوص أو مؤلفات.
- التقييم — العملية التي نفحص بها قيمة شيء.
- الشفافية — الوضوح وعدم الغموض في المعلومات.
- أدوات — أشياء تستخدم لمساعدتنا في شيء ما.
- نماذج — عينات أو نماذج تمثل شيء معين.
- المحتوى — المواد أو المعلومات المقدمة في نص.
تلميح: مرّر المؤشر أو ركّز أو اضغط على الكلمات المظلَّلة داخل القصة لرؤية تعريفات سريعة أثناء القراءة أو الاستماع.
أسئلة للمناقشة
- كيف تؤثر التحيزات في تقييم المبدعين؟
- ما هي الخطوات التي يمكن اتخاذها لتعزيز الشفافية؟
- كيف يمكن أن يؤثر الذكاء الاصطناعي على العدالة في التوظيف؟