طوّر فريق من جامعة نيويورك بقيادة أنس باري وبمشاركة بينشو هوانغ إطاراً خوارزميّاً نشر في مجلة Frontiers in Artificial Intelligence ليعمل كخطوة معالجة مسبقة للنماذج الكبيرة للغة. يهدف الإطار إلى تقليل أخطاء المعلومات المعروفة بالهلوسات عندما تتعامل النماذج مع نصوص طويلة أو ضوضائية أو متكررة، وذلك عن طريق تقديم إدخال أكثر إيجازاً وتنوّعاً وتمثيلاً للنموذج قبل توليد الملخّص النهائي.
تتكوّن العملية من مرحلتين رئيسيتين. في المرحلة الأولى تُنقّح الجمل عن طريق الاحتفاظ بالعناصر الأساسية ودمج العبارات متعددة الكلمات، ثم تُحوّل كل جملة إلى متجه رقمي يجمع ميزات معجمية ودلالية وموضوعية. تُمنح الجمل درجات على أساس مركزيتها في المستند، وأهميتها داخل القسم، وتوافقها مع الملخّص المتوقع، مع تعزيز رقمي للأقسام الرئيسية مثل المقدمة والنتائج والخاتمة.
في المرحلة الثانية تُطبق مبادئ تجمع الطيور—التماسك والمحاذاة والتباعد—لتجميع الجمل المتشابهة وظهور قادة يتبعهم آخرون قريبون. من كل مجموعة يُختار فقط أعلى الجمل تقييماً، مما يقلل التكرار مع الحفاظ على تغطية الخلفية والطُرق والنتائج والاستنتاجات. تُعاد ترتيب الجمل المختارة ثم تُمرَّر إلى نموذج اللغة الكبير ليصوغ ملخّصاً متسقاً وأكثر واقعية.
- التماسك: تجمع الجمل ذات المعنى المشترك.
- المحاذاة: جعل اتجاهات الجمل متقاربة.
- التباعد: تجنب التكرار وازدواجية المعلومات.
اختبر الباحثون الإطار عملياً على مجموعات كبيرة من المستندات ووجدوا أن دمجه مع نماذج اللغة الكبيرة أدى إلى ملخّصات ذات دقة واقعية أعلى مقارنةً بتشغيل النماذج وحدها. يؤكد باري أن الإطار مخصّص كخطوة معالجة مسبقة وليس بديلاً عن النماذج، ويشير المؤلفون إلى أن الطريقة قد تقلل مخاطر الهلوسات لكنها لا تقضي عليها تماماً.
كلمات صعبة
- إطار — مجموعة قواعد أو خطوات منظمة للعملإطاراً
- هلوسة — معلومة خاطئة يولدها النموذج الآليالهلوسات
- متجه — تمثيل رقمي للخاصيات أو المعانيمتجه رقمي
- مركزية — أهمية عنصر داخل المستند أو القسممركزيتها
- تجميع — جمع عناصر متشابهة في مجموعة واحدةلتجميع
- محاذاة — قرب اتجاهات الجمل أو المعانيالمحاذاة
- تباعد — توزيع المعلومات لتقليل التكرار والازدواجيةالتباعد
تلميح: مرّر المؤشر أو ركّز أو اضغط على الكلمات المظلَّلة داخل القصة لرؤية تعريفات سريعة أثناء القراءة أو الاستماع.
أسئلة للمناقشة
- ما الفوائد العملية لخطوة معالجة مسبقة مثل هذا الإطار عند تلخيص مستندات طويلة؟ اذكر أمثلة أو أسباب.
- ما القيود أو المخاطر التي قد تبقى حتى بعد استخدام الإطار، مع الإشارة إلى الهلوسات؟
- كيف يمكن لاختيار "أعلى الجمل تقييماً" وتقليل التكرار أن يؤثرا على موضوعية الملخّص ودقته؟