शोधकर्ता पंक्षियों के झुंड के व्यवहार से प्रेरित एक एल्गोरिदमिक फ्रेमवर्क लेकर आए हैं ताकि लंबी, शोरयुक्त या पुनरावर्ती इनपुट में बड़े भाषा मॉडलों (LLMs) की "hallucinations" कम की जा सकें। लेखक बताते हैं कि ये त्रुटियाँ तब बढ़ती हैं जब इनपुट लम्बा या दोहरावपूर्ण हो और इससे लोगों को एआई के परिणामों की जाँच तथा सुधार करना पड़ता है, जो काम धीमा कर देता है।
फ्रेमवर्क का पहला चरण वाक्यों को वर्चुअल पक्षियों की तरह लेता है: वाक्य साफ़ किए जाते हैं (संज्ञा, क्रिया, विशेषण बचाकर) और बहु-शब्दीय पद मर्ज किए जाते हैं ताकि एक ही अवधारणा साथ रहे। हर वाक्य को एक संख्यात्मक वेक्टर में बदला जाता है जो शब्द-संबंधी, अर्थगत और विषयगत संकेत जोड़ता है। वाक्यों को दस्तावेज-व्यापी केंद्रता, अनुभाग-स्तरीय महत्व और सार के साथ संरेखण के आधार पर अंक दिए जाते हैं, और प्रमुख अनुभागों जैसे परिचय, परिणाम और निष्कर्ष को बढ़ावा मिलता है।
दूसरे चरण में झुंड-चाल संचल—संगति, संरेखण और पृथक्करण—लागू किए जाते हैं ताकि समान अर्थ वाले वाक्य समूहों में इकट्ठा हों। हर क्लस्टर में नेता उभरते हैं और अनुयायी उनसे जुड़ते हैं; फिर प्रत्येक झुंड से केवल सबसे ऊँचे अंक वाला वाक्य चुना जाता है। इस चयन से पुनरावृत्ति घटती है जबकि पृष्ठभूमि, विधियाँ, परिणाम और निष्कर्ष शामिल रहते हैं।
चयनित वाक्यों को क्रमबद्ध कर LLM को दिया जाता है और परीक्षणों में (9,000 से अधिक दस्तावेज़ों पर) फ्रेमवर्क के साथ सारों की तथ्यात्मक सटीकता बढ़ी मिली। Anasse Bari ने कहा कि यह फ्रेमवर्क LLMs का प्रतिस्पर्धी नहीं, बल्कि एक पूर्व-प्रसंस्करण कदम है, और शोधकों ने कहा कि यह तरीका hallucination के जोखिम को घटा सकता है लेकिन पूरी तरह समाप्त नहीं करता।
कठिन शब्द
- फ्रेमवर्क — समस्या हल करने की एक व्यवस्थित रूपरेखाफ्रेमवर्क के साथ
- पूर्व-प्रसंस्करण — डेटा या इनपुट पहले साफ़ करने की क्रिया
- वेक्टर — अंकों का क्रम जो शब्दों को दर्शाता है
- संगति — वाक्यों या विचारों में तारतम्य और मेल
- संरेखण — जानकारी या संकेतों का एक-दूसरे से मिलना
- पृथक्करण — वाक्यों या भागों को अलग करना
- क्लस्टर — समान अर्थ वाले वाक्यों का समूह
- पुनरावृत्ति — दोहराई जाने वाली वही जानकारी
- सार — लंबे पाठ का संक्षिप्त मुख्य विचारसारों
युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।
चर्चा के प्रश्न
- क्या आप सोचते हैं कि पूर्व-प्रसंस्करण के यह कदम वास्तविक काम में समय बचाएंगे या और जाँच बढ़ाएंगे? अपने विचार बताइए।
- किसी दस्तावेज़ से केवल उच्च अंक वाले वाक्य चुनने से क्या महत्वपूर्ण जानकारी छूट सकती है? उदाहरण समझाइए।
- यह तरीका किन प्रकार के दस्तावेज़ों (जैसे शोध, समाचार, रिपोर्ट) में सबसे ज्यादा मददगार लगेगा और क्यों?