2025 में Stanford Institute for Human-Centered Artificial Intelligence (HAI) के एक पेपर में पता चला कि कई लोकप्रिय बड़े भाषा मॉडल (LLMs) अंग्रेज़ी के अलावा अन्य भाषाओं में कमजोर रहे। सार्वजनिक LLMs, जिनमें कुछ मॉडल आंशिक रूप से बड़ी कंपनियों द्वारा विकसित हैं, वैश्विक बहुसंख्यक की ज़रूरतों का पूरा ध्यान नहीं रखते।
Silicon Valley जैसी जगहों पर कंपनियों और डेटा की सघनता ने यह खाई और चौड़ी कर दी है। समाचारों में बताया गया कि कुर्दिश और स्वाहिली जैसी भाषाएँ करोड़ों लोगों के लिए व्यवहार में पिछड़ी हुई हैं। किस तरह के उदाहरणों में Wired ने बताया कि ChatGPT जैसे मॉडल तमिल में ईमेल लिखते समय अंग्रेज़ी में उलझा हुआ मसौदा दे सकते हैं।
MIT Technology Review ने पाया कि वेब से खींचे गए कम-संसाधन भाषाओं के पाठों में मशीन-अनुवाद की गलतियाँ होती हैं और दान करने वाले अक्सर सटीकता जाँचने के कौशल नहीं रखते। विशेषज्ञ सुझाव देते हैं कि कंपनियाँ स्थानीय इनपुट लें, डेटा सत्यापित करें और जमीनी डेवलपर्स के साथ साझेदारी करें।
कठिन शब्द
- कम-संसाधन भाषा — वह भाषा जिस पर कम डिजिटल डेटा उपलब्ध होकम-संसाधन भाषाओं
- सघनता — किसी क्षेत्र में मौजूद चीज़ों की अधिकता
- डेवलपर — कम्प्यूटर प्रोग्राम या एप बनाने वाला व्यक्तिडेवलपर्स
- सत्यापित करना — किसी जानकारी की सही या सटीक होने की जाँच करनासत्यापित करें
- दान करना — किसी को मदद या चीज़ें देनादान करने वाले
- बहुसंख्यक — अधिक संख्या में लोगों या चीज़ों का समूह
- साझेदारी — दो या अधिक पक्षों का मिलकर काम करना
युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।
चर्चा के प्रश्न
- कम-संसाधन भाषाओं में बड़े भाषा मॉडल कमजोर होने से आपके समुदाय पर क्या असर पड़ सकता है? उदाहरण दें।
- क्या कंपनियों को स्थानीय इनपुट और जमीनी डेवलपर्स के साथ काम करना चाहिए? अपने कारण बताइए।
- आपके हिसाब से स्थानीय डेटा सत्यापित करने के आसान तरीके कौन से हो सकते हैं?