تستخدم نماذج اللغة في تقديم نصائح وتعليمات، ولذلك يهم أن تكون استجابتها آمنة. في بحثهم، أوضح فريق من جامعة ولاية نورث كارولاينا أسباب جودة وسلامة المخرجات وجرّبوا طرق تدريب تهدف إلى تقليل المخرجات غير الآمنة مع الحفاظ على أداء النموذج.
ذكر الباحثون تحديين رئيسيين: أن تدريب السلامة قد يخفّض دقة النموذج، وهي مشكلة أطلقوا عليها اسم "ضريبة المحاذاة"، وأن كثيرًا من النماذج تعتمد فحوص سلامة سطحية يمكن تجاوزه أحيانًا. اقترح الفريق فرضية محاذاة السلامة السطحية (SSAH) وبحث داخل النماذج عن أجزاء حساسة للسلامة.
أظهر الفريق أن "تجميد" هذه الأجزاء أثناء التخصيص الدقيق يمكّن النموذج من تعلم مهام جديدة ضمن مجالات محددة مع الحفاظ على سلوكه الأصلي في السلامة. كما نوّهوا إلى ضرورة تطوير طرق تسمح للنماذج بإعادة تقييم السلامة خلال توليد الإجابة، ووفّروا المواد البرمجية للمجتمع العلمي لمتابعة العمل.
كلمات صعبة
- استجابة — الرد أو الجواب الذي يعطيه النظاماستجابتها
- مخرج — ما ينتجه النظام من نص أو جوابالمخرجات
- محاذاة — جعل سلوك النموذج يتوافق مع هدفالمحاذاة
- تجميد — إيقاف تغيير جزء من النموذج مؤقتًا
- تجاوز — تخطي فحص أو قاعدة وعدم الالتزام بهاتجاوزه
- سلامة — غياب الخطر أو التقليل من الأذىالسلامة
تلميح: مرّر المؤشر أو ركّز أو اضغط على الكلمات المظلَّلة داخل القصة لرؤية تعريفات سريعة أثناء القراءة أو الاستماع.
أسئلة للمناقشة
- ما رأيك في فكرة تجميد أجزاء من النموذج للحفاظ على السلامة؟ اشرح سبب واحد لماذا قد تنجح أو تفشل.
- كيف يمكن للباحثين أن يقللوا "ضريبة المحاذاة" مع الحفاظ على سلامة المخرجات؟ قدّم اقتراحًا واحدًا بسيطًا.
- ما مخاطر الاعتماد على فحوص سلامة سطحية في النماذج؟ اذكر أثر واحد على المستخدمين أو المجتمع.