न्यू यॉर्क यूनिवर्सिटी की एक टीम, जिसका नेतृत्व Anasse Bari ने किया और सह-लेखक Binxu Huang हैं, ने एक एल्गोरिदमिक फ्रेमवर्क पेश किया है जो बड़े भाषा मॉडल के लिए एक पूर्व-प्रसंस्करण कदम के रूप में काम करता है। यह फ्रेमवर्क दस्तावेज़-संक्षेपण में आम गलतियों, जिन्हें "hallucinations" कहा जाता है, को घटाने का लक्ष्य रखता है।
प्रक्रिया में पहले वाक्यों को साफ़ करके संज्ञा, क्रिया और विशेषण रखा जाता है और बहु-शब्दीय पदों को मर्ज किया जाता है। हर वाक्य को एक संख्यात्मक वेक्टर में बदला जाता है जो शब्द-संबंधी, अर्थगत और विषयगत विशेषताएँ जोड़ता है। वाक्यों को दस्तावेज-व्यापी केंद्रता, अनुभाग-स्तरीय महत्व और सार से संरेखण के आधार पर अंक मिलते हैं।
फिर झुंड-चाल संचलों—संगति, संरेखण और पृथक्करण—के ज़रिये वाक्य क्लस्टर बनते हैं, हर क्लस्टर में नेता उभरते हैं और केवल उच्चतम अंक वाले वाक्य चुने जाते हैं। चयनित वाक्य LLM को दिए जाते हैं और इससे बिना फ्रेमवर्क वाले मॉडल की तुलना में अधिक तथ्यात्मक सार मिले। यह शोध Frontiers in Artificial Intelligence में प्रकाशित हुआ है।
कठिन शब्द
- फ्रेमवर्क — किसी तकनीकी प्रक्रिया के लिए इस्तेमाल होने वाला ढांचा
- पूर्व-प्रसंस्करण — मुख्य काम से पहले किया गया डेटा साफ़ करने का कदम
- दस्तावेज़-संक्षेपण — लंबे दस्तावेज़ का छोटा और स्पष्ट रूप
- वेक्टर — संख्याओं का समूह जो जानकारी दर्शाता है
- संरेखण — किसी चीज़ को किसी मान या स्रोत के साथ मिलाना
- क्लस्टर — समान गुणों वाले वाक्यों या आइटमों का समूह
युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।
चर्चा के प्रश्न
- क्या आप अपने दस्तावेज़ सार बनाने के काम में यह फ्रेमवर्क इस्तेमाल करेंगे? क्यों या क्यों नहीं?
- वाक्यों को वेक्टर में बदलने से सार बनाने में किस तरह मदद मिलती है? एक‑दो वाक्य में बताइए।
- क्लस्टर में नेता वाक्य चुनने का क्या फायदा हो सकता है? अपने शब्दों में समझाइए।