एआई के लिए एक सचेत दृष्टिकोण कैसे पक्षपाती डेटा सेट पर कटौती करता है

पक्षपाती डेटासेट और नैतिक एआई

एआई-संचालित समाधानों को प्रभावी होने के लिए डेटा सेट की आवश्यकता होती है। और उन डेटा सेटों का निर्माण एक व्यवस्थित स्तर पर एक अंतर्निहित पूर्वाग्रह समस्या से भरा है। सभी लोग पूर्वाग्रहों (चेतन और अचेतन दोनों) से पीड़ित हैं। पूर्वाग्रह किसी भी रूप में हो सकते हैं: भौगोलिक, भाषाई, सामाजिक-आर्थिक, सेक्सिस्ट और नस्लवादी। और उन व्यवस्थित पूर्वाग्रहों को डेटा में बेक किया जाता है, जिसके परिणामस्वरूप एआई उत्पाद हो सकते हैं जो पूर्वाग्रह को बनाए रखते हैं और बढ़ाते हैं। डेटा सेट में आने वाले पूर्वाग्रहों को कम करने के लिए संगठनों को एक विचारशील दृष्टिकोण की आवश्यकता है।

पूर्वाग्रह समस्या को दर्शाने वाले उदाहरण

इस डेटा सेट पूर्वाग्रह का एक उल्लेखनीय उदाहरण जिसने उस समय बहुत अधिक नकारात्मक प्रेस को जन्म दिया था, वह एक फिर से शुरू पढ़ने का समाधान था जो महिलाओं के ऊपर पुरुष उम्मीदवारों का पक्षधर था। ऐसा इसलिए है क्योंकि भर्ती टूल के डेटा सेट को पिछले एक दशक में रिज्यूमे का उपयोग करके विकसित किया गया था, जब अधिकांश आवेदक पुरुष थे। डेटा पक्षपाती था और परिणाम उस पूर्वाग्रह को दर्शाते हैं। 

एक अन्य व्यापक रूप से रिपोर्ट किया गया उदाहरण: वार्षिक Google I/O डेवलपर सम्मेलन में, Google ने AI-संचालित त्वचाविज्ञान सहायता उपकरण का पूर्वावलोकन साझा किया जो लोगों को यह समझने में मदद करता है कि उनकी त्वचा, बालों और नाखूनों से संबंधित मुद्दों के साथ क्या हो रहा है। त्वचाविज्ञान सहायक इस बात को रेखांकित करता है कि स्वास्थ्य देखभाल में मदद के लिए एआई कैसे विकसित हो रहा है - लेकिन इसने आलोचना के मद्देनजर एआई में पूर्वाग्रह की संभावना को भी उजागर किया कि उपकरण रंग के लोगों के लिए पर्याप्त नहीं है।

जब Google ने टूल की घोषणा की, तो कंपनी ने नोट किया:

यह सुनिश्चित करने के लिए कि हम सभी के लिए निर्माण कर रहे हैं, हमारे मॉडल में उम्र, लिंग, जाति और त्वचा के प्रकार जैसे कारक शामिल हैं - पीली त्वचा से लेकर भूरी त्वचा तक जो शायद ही कभी जलती है।

Google, सामान्य त्वचा स्थितियों के उत्तर खोजने में सहायता के लिए AI का उपयोग कर रहा है

लेकिन वाइस में एक लेख ने कहा कि Google एक समावेशी डेटा सेट का उपयोग करने में विफल रहा:

कार्य को पूरा करने के लिए, शोधकर्ताओं ने दो राज्यों में स्थित 64,837 रोगियों की 12,399 छवियों के एक प्रशिक्षण डेटासेट का उपयोग किया। लेकिन चित्रित हजारों त्वचा स्थितियों में से केवल 3.5 प्रतिशत फिट्ज़पैट्रिक त्वचा प्रकार वी और VI वाले रोगियों से आए- जो क्रमशः भूरे रंग की त्वचा और गहरे भूरे या काले रंग की त्वचा का प्रतिनिधित्व करते हैं। अध्ययन के अनुसार, 90 प्रतिशत डेटाबेस गोरी त्वचा, गहरे रंग की गोरी त्वचा या हल्के भूरे रंग की त्वचा वाले लोगों से बना था। पक्षपाती नमूने के परिणामस्वरूप, त्वचा विशेषज्ञों का कहना है कि ऐप सफेद नहीं होने वाले लोगों का अधिक या कम निदान कर सकता है।

वाइस, Google का नया त्वचाविज्ञान ऐप गहरे रंग की त्वचा वाले लोगों के लिए नहीं बनाया गया था

Google ने यह कहकर जवाब दिया कि यह औपचारिक रूप से जारी करने से पहले उपकरण को परिष्कृत करेगा:

हमारा एआई-पावर्ड डर्मेटोलॉजी असिस्ट टूल तीन साल से अधिक के शोध की परिणति है। चूंकि हमारे काम को नेचर मेडिसिन में चित्रित किया गया था, इसलिए हमने अतिरिक्त डेटासेट के समावेश के साथ अपनी तकनीक को विकसित और परिष्कृत करना जारी रखा है जिसमें हजारों लोगों द्वारा दान किया गया डेटा और लाखों अधिक क्यूरेटेड त्वचा चिंता चित्र शामिल हैं।

Google, सामान्य त्वचा स्थितियों के उत्तर खोजने में सहायता के लिए AI का उपयोग कर रहा है

जितना हम उम्मीद कर सकते हैं कि एआई और मशीन लर्निंग प्रोग्राम इन पूर्वाग्रहों के लिए सही हो सकते हैं, वास्तविकता बनी हुई है: वे केवल इस प्रकार हैं स्मार्ट क्योंकि उनके डेटा सेट साफ हैं। पुराने प्रोग्रामिंग कहावत के अपडेट में कचरा अंदर कचरा बाहर, एआई समाधान केवल उतने ही मजबूत होते हैं जितने कि उनके डेटा सेट की गुणवत्ता शुरू से ही होती है। प्रोग्रामर से सुधार के बिना, इन डेटा सेटों के पास खुद को ठीक करने का पृष्ठभूमि अनुभव नहीं होता है - क्योंकि उनके पास संदर्भ का कोई अन्य फ्रेम नहीं होता है।

जिम्मेदारी से डेटा सेट बनाना सभी के मूल में है नैतिक कृत्रिम बुद्धिमत्ता. और लोग समाधान के मूल में हैं। 

माइंडफुल एआई एथिकल एआई है

पूर्वाग्रह शून्य में नहीं होता है। अनैतिक या पक्षपाती डेटा सेट विकास के चरण के दौरान गलत दृष्टिकोण अपनाने से आते हैं। पूर्वाग्रह त्रुटियों का मुकाबला करने का तरीका एक जिम्मेदार, मानव-केंद्रित, दृष्टिकोण को अपनाना है जिसे उद्योग में कई लोग माइंडफुल एआई कह रहे हैं। माइंडफुल एआई के तीन महत्वपूर्ण घटक हैं:

1. दिमागी एआई मानव-केंद्रित है

एआई परियोजना की शुरुआत से, योजना के चरणों में, लोगों की जरूरतों को हर निर्णय के केंद्र में होना चाहिए। और इसका मतलब है कि सभी लोग - सिर्फ एक उपसमुच्चय नहीं। इसलिए डेवलपर्स को एआई अनुप्रयोगों को समावेशी और पूर्वाग्रह मुक्त होने के लिए प्रशिक्षित करने के लिए विश्व स्तर पर आधारित लोगों की एक विविध टीम पर भरोसा करने की आवश्यकता है।

एक वैश्विक, विविध टीम से डेटा सेट की क्राउडसोर्सिंग सुनिश्चित करती है कि पूर्वाग्रहों की पहचान की जाती है और उन्हें जल्दी से फ़िल्टर किया जाता है। अलग-अलग जातियों, आयु समूहों, लिंग, शिक्षा के स्तर, सामाजिक-आर्थिक पृष्ठभूमि और स्थानों के लोग अधिक आसानी से डेटा सेट को खोज सकते हैं जो मूल्यों के एक सेट को दूसरे पर पसंद करते हैं, इस प्रकार अनपेक्षित पूर्वाग्रह को दूर करते हैं।

आवाज अनुप्रयोगों पर एक नज़र डालें। एक विचारशील एआई दृष्टिकोण को लागू करते समय, और एक वैश्विक प्रतिभा पूल की शक्ति का लाभ उठाते हुए, डेवलपर्स डेटा सेट में विभिन्न बोलियों और उच्चारण जैसे भाषाई तत्वों के लिए जिम्मेदार हो सकते हैं।

शुरू से ही मानव-केंद्रित डिजाइन ढांचे की स्थापना महत्वपूर्ण है। यह सुनिश्चित करने की दिशा में एक लंबा रास्ता तय करता है कि उत्पन्न, क्यूरेट और लेबल किया गया डेटा अंतिम उपयोगकर्ताओं की अपेक्षाओं को पूरा करता है। लेकिन पूरे उत्पाद विकास जीवनचक्र में मनुष्यों को लूप में रखना भी महत्वपूर्ण है। 

लूप में मनुष्य भी मशीनों को प्रत्येक विशिष्ट दर्शकों के लिए बेहतर एआई अनुभव बनाने में मदद कर सकते हैं। Pactera EDGE में, विश्व स्तर पर स्थित हमारी AI डेटा प्रोजेक्ट टीमें समझती हैं कि विभिन्न संस्कृतियाँ और संदर्भ विश्वसनीय AI प्रशिक्षण डेटा के संग्रह और अवधि को कैसे प्रभावित कर सकते हैं। उनके पास एआई-आधारित समाधान के लाइव होने से पहले समस्याओं को चिह्नित करने, उनकी निगरानी करने और उन्हें ठीक करने के लिए आवश्यक उपकरण हैं।

ह्यूमन-इन-द-लूप एआई एक प्रोजेक्ट "सेफ्टी नेट" है जो लोगों की ताकत - और उनकी विविध पृष्ठभूमि को मशीनों की तेज कंप्यूटिंग शक्ति के साथ जोड़ती है। इस मानव और एआई सहयोग को कार्यक्रमों की शुरुआत से स्थापित करने की आवश्यकता है ताकि पक्षपाती डेटा परियोजना में आधार न बने। 

2. दिमागी एआई जिम्मेदार है

जिम्मेदार होने के नाते यह सुनिश्चित करना है कि एआई पूर्वाग्रहों से मुक्त हो और वे नैतिकता पर आधारित हों। यह इस बात पर ध्यान देने के बारे में है कि डेटा कैसे, क्यों और कहाँ बनाया जाता है, इसे एआई सिस्टम द्वारा कैसे संश्लेषित किया जाता है, और निर्णय लेने में इसका उपयोग कैसे किया जाता है, ऐसे निर्णय जिनके नैतिक प्रभाव हो सकते हैं। किसी व्यवसाय के लिए ऐसा करने का एक तरीका कम प्रतिनिधित्व वाले समुदायों के साथ अधिक समावेशी और कम पक्षपाती होने के लिए काम करना है। डेटा एनोटेशन के क्षेत्र में, नया शोध इस बात पर प्रकाश डाल रहा है कि कैसे एक मल्टी-एनोटेटर मल्टी-टास्क मॉडल जो प्रत्येक एनोटेटर के लेबल को अलग सबटास्क के रूप में मानता है, विशिष्ट जमीनी सच्चाई विधियों में निहित संभावित मुद्दों को कम करने में मदद कर सकता है, जहां एनोटेटर असहमति अंडर-रिप्रेजेंटेशन के कारण हो सकती है और एक ही जमीनी सच्चाई के लिए एनोटेशन के एकत्रीकरण में नजरअंदाज किया जा सकता है। 

3. भरोसेमंद

एआई मॉडल को कैसे प्रशिक्षित किया जाता है, यह कैसे काम करता है, और वे परिणामों की सिफारिश क्यों करते हैं, इस बारे में पारदर्शी और समझाने योग्य व्यवसाय से विश्वसनीयता आती है। एक व्यवसाय को एआई स्थानीयकरण के साथ विशेषज्ञता की आवश्यकता होती है ताकि उसके ग्राहकों के लिए अपने एआई अनुप्रयोगों को अधिक समावेशी और व्यक्तिगत बनाना संभव हो सके, स्थानीय भाषा में महत्वपूर्ण बारीकियों का सम्मान करना और उपयोगकर्ता अनुभव जो एक देश से दूसरे देश में एआई समाधान की विश्वसनीयता बना या तोड़ सकते हैं। . उदाहरण के लिए, किसी व्यवसाय को अपने अनुप्रयोगों को वैयक्तिकृत और स्थानीय संदर्भों के लिए डिज़ाइन करना चाहिए, जिसमें भाषाएँ, बोलियाँ और ध्वनि-आधारित अनुप्रयोगों में उच्चारण शामिल हैं। इस तरह, एक ऐप अंग्रेजी से लेकर कम-प्रतिनिधित्व वाली भाषाओं तक, हर भाषा में समान स्तर के आवाज अनुभव परिष्कार लाता है।

निष्पक्षता और विविधता

अंततः, सचेत एआई सुनिश्चित करता है कि समाधान निष्पक्ष और विविध डेटा सेटों पर बनाए गए हैं जहां समाधान के बाजार में जाने से पहले परिणामों और विशेष परिणामों के प्रभाव की निगरानी और मूल्यांकन किया जाता है। समाधान के विकास के हर हिस्से में दिमागदार और मनुष्यों को शामिल करके, हम यह सुनिश्चित करने में सहायता करते हैं कि एआई मॉडल स्वच्छ, न्यूनतम पक्षपातपूर्ण और यथासंभव नैतिक रहें।

तुम्हें क्या लगता है?

यह साइट स्पैम को कम करने के लिए अकिस्मेट का उपयोग करती है। जानें कि आपका डेटा कैसे संसाधित किया जाता है.