एआई मॉडरेशन और अफ्रीकी भाषाओं की दृश्यताCEFR B2
20 अप्रैल 2026
आधारित: Guest Contributor, Global Voices • CC BY 3.0
फोटो: Zulfugar Karimov, Unsplash
सोशल मीडिया से हानिकारक सामग्री हटाने वाले एआई सिस्टम अक्सर अफ्रीका की कई स्थानीय भाषाओं को समझने में असमर्थ हैं। इससे यह तय करने में अंतर आता है कि कौन-सी सामग्री ऑनलाइन रहे और क्या हटाया जाए। 2025 के अध्ययन ने दिखाया कि बड़े भाषा मॉडल्स में कुल मिलाकर केवल 42 अफ्रीकी भाषाएँ महत्वपूर्ण रूप से मौजूद हैं, और सिर्फ चार भाषाएँ — अम्हारिक, स्वाहिली, अफ्रिकान्स और मलागासी — थोड़ी लगातार संभाली जाती हैं। इसका मतलब है कि अफ्रीका की 98 प्रतिशत से अधिक भाषाएँ अधिकांश मॉडरेशन सिस्टम्स के लिए बड़ी हद तक अदृश्य रहती हैं।
अंग्रेजी पर निर्भरता दोनों तरह की गलतियों को जन्म देती है: निर्दोष सामग्री का अनावश्यक रूप से हटना (false positives) और वास्तविक हानिकारक पोस्टों का अनदेखा होना (false negatives)। उदाहरण के तौर पर केन्याई क्रिएटर जैक्सन बु्सोलो का अकाउंट फरवरी 2025 में बिना स्पष्टीकरण हटाया गया और बाद में बहाल हुआ। जनवरी–मार्च 2025 में टिकटोक ने केन्या से 450,000 से अधिक वीडियो हटाए और 43,000 से अधिक अकाउंट बैन किए; दूसरी तिमाही तक हटाने की संख्या 592,000 तक बढ़ गई। इथियोपिया में फेसबुक पर फैले झूठे दावों को बाद में फैक्ट-चेकरों ने खारिज किया।
विशेषज्ञों के अनुसार बोझ स्थानीय क्रिएटर्स, पत्रकारों और उपयोगकर्ताओं पर सबसे अधिक पड़ता है। Oversight Lab की मेरसी म्यूटेमी ने कहा कि प्लेटफॉर्म्स मुख्य रूप से अंग्रेजी में प्रशिक्षित एल्गोरिद्म पर भरोसा कर रहे हैं, जबकि कई उपयोगकर्ता अपनी मातृभाषा में सामग्री बनाते हैं। समाधान के प्रयास भी चल रहे हैं: AfricaNLP और विश्वविद्यालय टीमें डेटासेट तैयार कर रही हैं; 2025 के AfricaNLP वर्कशॉप ने Hausa, Igbo और Swahili के कार्यों पर ध्यान दिया; Cohere ने HausaNLP के साथ साझेदारी कर डेटा जोड़ा।
नियमन ने भी भूमिका निभाई है: AU ने जुलाई 2024 में Continental AI Strategy को मंजूरी दी और कुछ देशों ने राष्ट्रीय नीतियाँ अपनाईं, जिनमें नाइजीरिया की अप्रैल 2025 की रणनीति शामिल है। यूरोप में EU AI Act अगस्त 2024 में लागू हुआ और Digital Services Act फरवरी 2024 में लागू होकर प्लेटफॉर्म्स पर पारदर्शिता और गैर-भेदभाव जैसी बाध्यताएँ लगाती हैं। फिर भी प्रतिनिधि प्रशिक्षण डेटा और प्रभावी कवरेज तैयार करना एक बड़ी चुनौती बना हुआ है।
कठिन शब्द
- अदृश्य — दिखाई न देने वाला या पहचान में न आने वाला
- निर्भरता — किसी चीज़ पर भरोस या आश्रित होना
- नियमन — कानून या नियम बनाकर नियंत्रण करना
- पारदर्शिता — कार्य या निर्णय का स्पष्ट और खुला होना
- गैर-भेदभाव — लोगों के साथ असमान या अन्यायपूर्ण व्यवहार न होना
- डेटासेट — डेटा का व्यवस्थित संग्रह जो अध्ययन के काम आए
युक्ति: जब आप किसी भी भाषा में कहानी पढ़ें या ऑडियो सुनें, तो लेख में हाइलाइट किए गए शब्दों पर होवर/फ़ोकस/टैप करें और तुरंत छोटी-सी परिभाषा देखें।
चर्चा के प्रश्न
- अफ्रीका की कई स्थानीय भाषाएँ मॉडरेशन सिस्टम्स में अदृश्य रहती हैं — इसका स्थानीय क्रिएटर्स और उपयोगकर्ताओं पर क्या प्रभाव हो सकता है? उदाहरण दें।
- डेटासेट और प्रशिक्षण में प्रतिनिधित्व बढ़ाने के लिए कौन-कौन से व्यावहारिक कदम प्लेटफॉर्म्स और शोधकर्ता उठा सकते हैं? अपने विचार लिखें।
- EU और AU जैसे नियमन स्थानीय भाषा कवरेज और गैर-भेदभाव सुनिश्चित करने में किस प्रकार मदद कर सकते हैं? आप क्या चुनौतियाँ देखते हैं?