शोधकर्ताओं ने बड़े भाषा मॉडल (LLMs) में सुरक्षा-संशोधन कैसे काम करता है, इस पर व्यवस्थित अध्ययन किया। टीम ने दो मुख्य समस्याएँ दर्ज कीं: पहला, सुरक्षा प्रशिक्षण से मॉडल की मौलिक सटीकता घट सकती है — जिसे वे "alignment tax" कहते हैं; दूसरा, बहुत से मॉडल प्रारम्भ में ही किसी अनुरोध को सुरक्षित या असुरक्षित मान लेते हैं, जिससे साधारण सुरक्षा जाँच बायपास हो सकती है।
पत्र के सह-लेखक Jung-Eun Kim ने कहा कि लक्ष्य यह है कि मॉडल लोगों को खुद को नुकसान पहुँचाने के निर्देश न दें और न ही ऐसी जानकारी दें जिसका दुरुपयोग हो सके। PhD छात्र Jianwei Li ने बताया कि जब उपयोगकर्ता अनुरोध का संदर्भ बदलता है तो मॉडल व्यवहार में बदलाव दिखा सकता है, इसलिए सतही संशोधन समस्याग्रस्त है।
इन निष्कर्षों को व्यक्त करने के लिए टीम ने Superficial Safety Alignment Hypothesis (SSAH) प्रस्तावित किया, जो कहती है कि मॉडल जल्दी और द्विआधारी सिग्नल पर निर्णय लेते हैं। शोधकर्ताओं ने सुरक्षा-संवेदनशील न्यूरॉन्स की पहचान की और दिखाया कि फाइन‑ट्यूनिंग के दौरान इन न्यूरॉन्स को स्थिर रख देने से मॉडल मूल सुरक्षा व्यवहार बनाए रख सकता है जबकि वह किसी विशिष्ट डोमेन के नए कार्य सीखता है। इससे alignment tax घट सकता है और सुरक्षा-संशोधन कायम रहता है।
टीम ने कहा कि यह काम एक वैचारिक ढांचा और व्यावहारिक तकनीक दोनों देता है और ऐसे तरीकों की आवश्यकता पर जोर दिया जो मॉडल को उत्तर प्रक्रिया के दौरान सुरक्षा का पुनर्मूल्यांकन करने दें। यह शोध ICLR2026 में प्रस्तुत होगा; प्रासंगिक कोड और जानकारी https://ssa-h.github.io/ पर उपलब्ध है। स्रोत: North Carolina State University।
कठिन शब्द
- सुरक्षा-संशोधन — मॉडल में सुरक्षा नियम या बदलाव लागू करना
- सटीकता — मॉडल के उत्तरों की सही होने की मापमौलिक सटीकता
- सतही — ऊपर से देखा जाने वाला, गहरा न होने वालासतही संशोधन
- द्विआधारी — केवल दो विकल्पों में किया गया विभाजनद्विआधारी सिग्नल
- न्यूरॉन्स — मॉडल के आंतरिक सक्रिय इकाइयों के रूपसुरक्षा-संवेदनशील न्यूरॉन्स
- फाइन‑ट्यूनिंग — मॉडल को नए उदाहरणों पर और सीखानाफाइन‑ट्यूनिंग के दौरान
युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।
चर्चा के प्रश्न
- यदि एक मॉडल सतही संकेतों पर जल्दी निर्णय लेता है, तो इसके किस प्रकार के जोखिम हो सकते हैं? उदाहरण दें।
- न्यूरॉन्स को स्थिर रखने की तकनीक से मॉडल के सीखने पर क्या प्रभाव पड़ सकते हैं? अपने विचार लिखिए।
- यह अध्ययन सुरक्षा-संशोधन और सटीकता के बीच संतुलन पर क्या संदेश देता है, और आप किस तरह के समाधान सुझाएँगे?