बड़े भाषा मॉडल और सरल गुणा में असफलता^{CEFR B2}

29 दिस॰ 2025

स्तरA1

आधारित: U. Chicago, Futurity • CC BY 4.0

फोटो: Brett Jordan, Unsplash

स्तर B2 – ऊपरी-मध्य स्तरCEFR B2

6 मिनट

322 शब्द

एक व्यापक अध्ययन में Xiaoyan Bai और Chenhao Tan (University of Chicago) ने MIT, Harvard University, University of Waterloo और Google DeepMind के सहयोगियों के साथ मिलकर यह जांच की कि क्यों अत्याधुनिक बड़े भाषा मॉडल सरल प्राथमिक-स्तर गणनाओं—विशेषकर दो चार-अंकीय संख्याओं का गुणा—में भी असफल रहते हैं। अध्ययन ने मानक फाइन-ट्यूनिंग और Implicit Chain of Thought (ICoT) प्रशिक्षण विधियों की तुलना पर ध्यान केन्द्रित किया, खासकर लंबी-दूरी निर्भरताओं के संदर्भ में जहाँ मॉडल को आंशिक गुणा और चलती राशियाँ बनाए रखना होता है।

परिणाम स्पष्ट थे: मानक फाइन-ट्यूनिंग के तहत दो से 12 परतों वाले मॉडल चार-अंकीय गुणा पर 1% से भी कम सटीकता दिखाते रहे, जबकि ICoT से प्रशिक्षित मॉडल ने 100% सटीकता हासिल की। आंतरिक विश्लेषण से पता चला कि ICoT मॉडल मध्यवर्ती मानों को एन्कोड करते हैं और इनके छिपे हुए राज्यों से चलती राशियाँ डिकोड कर पाते हैं। टीम ने ध्यान के संगठन में परत-विशेष विभाजन देखा: शुरुआती परतें निश्चित स्थानों पर अंक-जुड़ियों के गुणनफल निकालकर संग्रहीत करतीं और बाद की परतें उन मानों को पुनः प्राप्त कर अंतिम उत्तर के प्रत्येक अंक का निर्माण करती थीं।

शोध ने यह भी बताया कि अंक Fourier-जैसे आधारों में प्रस्तुत होते हैं और प्रशिक्षण के दौरान Minkowski योग जैसा एक ज्यामितीय ऑपरेशन स्वाभाविक रूप से उभर आया। व्यवहारिक सुधार के लिये टीम ने एक प्रशिक्षण उद्देश्य जोड़ा जो प्रत्येक चरण पर चलती राशियों को ट्रैक करना सिखाता; इस लक्ष्य ने बिना स्पष्ट चेन-ऑफ-थॉट पर्यवेक्षण के दो-परत वाले मॉडल की सटीकता 99% तक बढ़ा दी। अध्ययन का निष्कर्ष यह है कि केवल डेटा या पैरामीटर बढ़ाने से सीमाएँ नहीं हटतीं; आर्किटेक्चरल मार्गदर्शन और लक्षित प्रशिक्षण उद्देश्य बहु-चरण तर्क सीखने में निर्णायक हो सकते हैं।

"जैसे-जैसे AI महत्वपूर्ण निर्णय-निर्माण में अधिक समाहित होता जा रहा है, इसके सीखने और सोचने के विशिष्ट तरीकों को समझना आवश्यक है," Tan कहते हैं। Source: University of Chicago

कठिन शब्द

गणना — संख्याओं या आंकड़ों पर किया गया हिसाब
गणनाओं
फाइन-ट्यूनिंग — मौजूदा मॉडल को विशेष काम के लिये बदलना
प्रशिक्षण — मशीन को नया व्यवहार सिखाने की प्रक्रिया
परत — मॉडल के भीतर अलग-अलग स्तर या तह
परतों
मध्यवर्ती — बीच के स्तर या मध्य में होने वाला
चलती राशि — गणना के बीच के अस्थायी संख्यात्मक मान
चलती राशियाँ
सटीकता — उत्तर या परिणाम की शुद्धता की मात्रा
आर्किटेक्चरल मार्गदर्शन — डिजाइन या संरचना के आधार पर निर्देश देना

युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।

1. अध्ययन के अनुसार चार-अंकीय गुणा पर 100% सटीकता किस प्रशिक्षण विधि ने हासिल की?
2. अध्ययन ने किस निष्कर्ष पर जोर दिया कि सीमाएँ नहीं हटतीं?
3. आंतरिक विश्लेषण से ICoT मॉडल के बारे में क्या पाया गया?
4. किस उपाय ने बिना स्पष्ट चेन-ऑफ-थॉट पर्यवेक्षण के दो-परत मॉडल की सटीकता 99% तक बढ़ाई?

चर्चा के प्रश्न

अध्ययन में बताया गया है कि आर्किटेक्चरल मार्गदर्शन और लक्षित प्रशिक्षण महत्वपूर्ण हैं। आप कैसे सोचते हैं कि ये उपाय वास्तविक दुनिया के AI सिस्टम की भरोसेमंदता बढ़ा सकते हैं? उदाहरण दें।
क्या मॉडल के मध्यवर्ती मानों (चलती राशियों) को समझना और ट्रैक करना रोज़मर्रा के अनुप्रयोगों में उपयोगी होगा? किन स्थितियों में यह जरूरी हो सकता है?
डेटा या पैरामीटर बढ़ाने की बजाय लक्षित प्रशिक्षण उद्देश्य चुनने के क्या फायदे और सीमाएँ हो सकती हैं? अपने विचार संक्षेप में बताइए।

पढ़ें

बड़े भाषा मॉडल और सरल गुणा में असफलता CEFR B2

कठिन शब्द

चर्चा के प्रश्न

संबंधित लेख

साइकिल चालकों के हाथ संकेतों की गलत समझ और दुर्घटना जोखिम

ETH Zürich ने नैनो-आकार के OLED पिक्सल बनाए

रिपोर्ट: युगांडा को तेज़ी से मध्यम‑आय बनने के लिए विज्ञान सुधार चाहिए

विटामिन C पोटेशियम पर्क्लोरेट के प्रजनन नुकसान से बचा सकता है

Ngogo चिंपांज़ियों ने सीमा बढ़ाकर जन्म और उत्तरजीविता बढ़ाई

बड़े भाषा मॉडल और सरल गुणा में असफलता^{CEFR B2}