The Promise And Perils Of Synthetic Data

क्या किसी AI के लिए किसी अन्य AI द्वारा उत्पन्न डेटा पर प्रशिक्षित होना संभव है? यह एक मनगढ़ंत विचार जैसा लग सकता है। लेकिन यह ऐसा है जो काफी समय से मौजूद है – और जैसे-जैसे नए, वास्तविक डेटा का आना कठिन होता जा रहा है, यह लोकप्रियता हासिल कर रहा है।

एंथ्रोपिक ने अपने प्रमुख मॉडलों में से एक, क्लाउड 3.5 सॉनेट को प्रशिक्षित करने के लिए कुछ सिंथेटिक डेटा का उपयोग किया। मेटा ने एआई-जनरेटेड डेटा का उपयोग करके अपने लामा 3.1 मॉडल को बेहतर बनाया। और कहा जाता है कि ओपनएआई आगामी ओरियन के लिए अपने “तर्क” मॉडल ओ1 से सिंथेटिक प्रशिक्षण डेटा प्राप्त कर रहा है।

एनोटेशन का महत्व

एआई सिस्टम सांख्यिकीय मशीनें हैं। कई उदाहरणों पर प्रशिक्षित, वे भविष्यवाणियां करने के लिए उन उदाहरणों में पैटर्न सीखते हैं, जैसे कि किसी ईमेल में “किससे” आमतौर पर “यह चिंता का विषय हो सकता है” से पहले आता है।

एनोटेशन, आमतौर पर इन प्रणालियों द्वारा ग्रहण किए गए डेटा के अर्थ या भागों को लेबल करने वाला टेक्स्ट, इन उदाहरणों में एक महत्वपूर्ण हिस्सा है। वे मार्गदर्शक के रूप में कार्य करते हैं, चीजों, स्थानों और विचारों के बीच अंतर करने के लिए एक मॉडल “सिखाते” हैं।

एक फोटो-वर्गीकरण मॉडल पर विचार करें जिसमें “रसोईघर” शब्द के साथ रसोई के बहुत सारे चित्र दिखाए गए हैं। जैसे-जैसे यह प्रशिक्षित होगा, मॉडल “रसोईघर” और सामान्य के बीच संबंध बनाना शुरू कर देगा विशेषताएँ रसोई के (जैसे कि उनमें फ्रिज और काउंटरटॉप्स हों)। प्रशिक्षण के बाद, एक रसोई की तस्वीर दी गई जो शुरुआती उदाहरणों में शामिल नहीं थी, मॉडल को इसे इस तरह पहचानने में सक्षम होना चाहिए। (बेशक, अगर रसोई की तस्वीरों पर “गाय” का लेबल लगाया जाता, तो इससे उनकी पहचान गाय के रूप में होती, जो अच्छी व्याख्या के महत्व पर जोर देती है।)

एआई की भूख और इसके विकास के लिए लेबल डेटा प्रदान करने की आवश्यकता ने एनोटेशन सेवाओं के लिए बाजार को बढ़ा दिया है। डाइमेंशन मार्केट रिसर्च का अनुमान है कि आज इसकी कीमत $838.2 मिलियन है – और अगले 10 वर्षों में इसकी कीमत $10.34 बिलियन हो जाएगी। हालांकि इस बात का सटीक अनुमान नहीं है कि कितने लोग लेबलिंग कार्य में संलग्न हैं, 2022 के पेपर में यह संख्या “लाखों” बताई गई है।

एआई प्रशिक्षण सेट के लिए लेबल बनाने के लिए बड़ी और छोटी कंपनियां डेटा एनोटेशन फर्मों द्वारा नियोजित श्रमिकों पर भरोसा करती हैं। इनमें से कुछ नौकरियां उचित रूप से अच्छा भुगतान करती हैं, खासकर यदि लेबलिंग के लिए विशेष ज्ञान (उदाहरण के लिए गणित विशेषज्ञता) की आवश्यकता होती है। दूसरे लोग कमर तोड़ने वाले हो सकते हैं। विकासशील देशों में एनोटेटर्स को भविष्य के कार्यक्रमों के किसी भी लाभ या गारंटी के बिना औसतन केवल कुछ डॉलर प्रति घंटे का भुगतान किया जाता है।

एक डेटा अच्छी तरह से सूख रहा है

इसलिए मानव-जनित लेबलों के विकल्प तलाशने के मानवतावादी कारण हैं। उदाहरण के लिए, उबर एआई एनोटेशन और डेटा लेबलिंग पर काम करने के लिए गिग श्रमिकों के अपने बेड़े का विस्तार कर रहा है। लेकिन व्यावहारिक भी हैं।

मनुष्य ही इतनी तेजी से लेबल लगा सकता है। एनोटेटर्स में भी पूर्वाग्रह होते हैं जो उनके एनोटेशन में प्रकट हो सकते हैं, और बाद में, उन पर प्रशिक्षित किसी भी मॉडल में। एनोटेटर गलतियाँ करते हैं, या निर्देशों को लेबल करने में उलझ जाते हैं। और इंसानों को काम करने के लिए भुगतान करना महंगा है।

डेटा सामान्य तौर पर उस मामले के लिए महंगा है। शटरस्टॉक अपने अभिलेखागार तक पहुंचने के लिए एआई विक्रेताओं से करोड़ों डॉलर का शुल्क ले रहा है, जबकि रेडिट ने Google, OpenAI और अन्य को लाइसेंसिंग डेटा से करोड़ों डॉलर कमाए हैं।

अंततः, डेटा हासिल करना भी कठिन होता जा रहा है।

अधिकांश मॉडलों को सार्वजनिक डेटा के विशाल संग्रह पर प्रशिक्षित किया जाता है – डेटा जिसे मालिक इस डर से गेट करना पसंद कर रहे हैं कि इसे चोरी कर लिया जाएगा या उन्हें इसके लिए क्रेडिट या श्रेय नहीं मिलेगा। दुनिया की शीर्ष 1,000 वेबसाइटों में से 35% से अधिक अब OpenAI के वेब स्क्रैपर को ब्लॉक कर रही हैं। और एक हालिया अध्ययन में पाया गया कि “उच्च-गुणवत्ता” स्रोतों से लगभग 25% डेटा को मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रमुख डेटासेट से प्रतिबंधित कर दिया गया है।

क्या मौजूदा एक्सेस-अवरुद्ध प्रवृत्ति जारी रहनी चाहिए, अनुसंधान समूह एपोच एआई का अनुमान है कि डेवलपर्स के पास 2026 और 2032 के बीच जेनरेटिव एआई मॉडल को प्रशिक्षित करने के लिए डेटा की कमी हो जाएगी। कॉपीराइट मुकदमों और आपत्तिजनक सामग्री के खुले डेटासेट में अपना रास्ता बनाने की आशंका के साथ, एआई विक्रेताओं के लिए गणना को मजबूर कर दिया है।

सिंथेटिक विकल्प

पहली नज़र में, सिंथेटिक डेटा इन सभी समस्याओं का समाधान प्रतीत होगा। एनोटेशन की आवश्यकता है? उन्हें उत्पन्न करें. अधिक उदाहरण डेटा? कोई बात नहीं। आसमान की हद।

और कुछ हद तक ये बात सच भी है.

उभरती प्रौद्योगिकियों के नैतिक प्रभाव का अध्ययन करने वाले वाशिंगटन विश्वविद्यालय के पीएचडी उम्मीदवार ओस कीज़ ने टेकक्रंच को बताया, “अगर ‘डेटा नया तेल है,’ तो सिंथेटिक डेटा खुद को जैव ईंधन के रूप में पेश करता है, जो वास्तविक चीज़ की नकारात्मक बाहरीताओं के बिना बनाया जा सकता है।” . “आप डेटा का एक छोटा प्रारंभिक सेट ले सकते हैं और उसमें से नई प्रविष्टियों का अनुकरण और एक्सट्रपलेशन कर सकते हैं।”

एआई उद्योग ने इस अवधारणा को अपनाया है और इसके साथ चल रहा है।

इस महीने, राइटर, एक एंटरप्राइज़-केंद्रित जेनरेटिव एआई कंपनी, ने एक मॉडल, पलमायरा एक्स 004 लॉन्च किया, जो लगभग पूरी तरह से सिंथेटिक डेटा पर प्रशिक्षित है। लेखक का दावा है कि इसे विकसित करने में केवल $700,000 की लागत आई – जबकि तुलनात्मक आकार के ओपनएआई मॉडल के लिए $4.6 मिलियन का अनुमान लगाया गया था।

माइक्रोसॉफ्ट के फाई ओपन मॉडल को आंशिक रूप से सिंथेटिक डेटा का उपयोग करके प्रशिक्षित किया गया था। गूगल के जेम्मा मॉडल भी ऐसे ही थे। एनवीडिया ने इस गर्मी में सिंथेटिक प्रशिक्षण डेटा उत्पन्न करने के लिए डिज़ाइन किए गए एक मॉडल परिवार का अनावरण किया, और एआई स्टार्टअप हगिंग फेस ने हाल ही में सिंथेटिक टेक्स्ट का सबसे बड़ा एआई प्रशिक्षण डेटासेट जारी किया है।

सिंथेटिक डेटा उत्पादन अपने आप में एक व्यवसाय बन गया है – जिसकी कीमत 2030 तक 2.34 बिलियन डॉलर हो सकती है। गार्टनर का अनुमान है कि इस वर्ष एआई और एनालिटिक्स परियोजनाओं के लिए उपयोग किया जाने वाला 60% डेटा कृत्रिम रूप से उत्पन्न किया जाएगा।

एलन इंस्टीट्यूट फॉर एआई के एक वरिष्ठ शोध वैज्ञानिक लुका सोल्डैनी ने कहा कि सिंथेटिक डेटा तकनीकों का उपयोग ऐसे प्रारूप में प्रशिक्षण डेटा उत्पन्न करने के लिए किया जा सकता है जो आसानी से स्क्रैपिंग (या यहां तक ​​कि सामग्री लाइसेंसिंग) के माध्यम से प्राप्त नहीं किया जाता है। उदाहरण के लिए, अपने वीडियो जनरेटर मूवी जेन के प्रशिक्षण में, मेटा ने प्रशिक्षण डेटा में फुटेज के लिए कैप्शन बनाने के लिए लामा 3 का उपयोग किया, जिसे मनुष्यों ने प्रकाश व्यवस्था के विवरण जैसे अधिक विवरण जोड़ने के लिए परिष्कृत किया।

इन्हीं पंक्तियों के साथ, OpenAI का कहना है कि उसने ChatGPT के लिए स्केचपैड-जैसे कैनवास फीचर बनाने के लिए सिंथेटिक डेटा का उपयोग करके GPT-4o को ठीक किया है। और अमेज़ॅन ने कहा है कि यह एलेक्सा के लिए वाक् पहचान मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले वास्तविक दुनिया के डेटा के पूरक के लिए सिंथेटिक डेटा उत्पन्न करता है।

सोल्डैनी ने कहा, “सिंथेटिक डेटा मॉडल का उपयोग मानव अंतर्ज्ञान पर तेजी से विस्तार करने के लिए किया जा सकता है, जिसमें विशिष्ट मॉडल व्यवहार को प्राप्त करने के लिए डेटा की आवश्यकता होती है।”

सिंथेटिक जोखिम

हालाँकि, सिंथेटिक डेटा कोई रामबाण इलाज नहीं है। यह सभी AI की तरह ही “कचरा अंदर, कचरा बाहर” समस्या से ग्रस्त है। मॉडल बनाएं सिंथेटिक डेटा, और यदि इन मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा में पूर्वाग्रह और सीमाएं हैं, तो उनके आउटपुट भी इसी तरह दूषित होंगे। उदाहरण के लिए, आधार डेटा में खराब प्रतिनिधित्व वाले समूह सिंथेटिक डेटा में भी ऐसे ही होंगे।

कीज़ ने कहा, “समस्या यह है कि आप केवल इतना ही कर सकते हैं।” “मान लीजिए कि आपके डेटासेट में केवल 30 अश्वेत लोग हैं। बाहर निकालने से मदद मिल सकती है, लेकिन अगर वे 30 लोग सभी मध्यम वर्ग के हैं, या सभी गोरी त्वचा वाले हैं, तो ‘प्रतिनिधि’ डेटा ऐसा ही दिखेगा।’

इस बिंदु पर, राइस यूनिवर्सिटी और स्टैनफोर्ड के शोधकर्ताओं द्वारा 2023 में किए गए एक अध्ययन में पाया गया कि प्रशिक्षण के दौरान सिंथेटिक डेटा पर अत्यधिक निर्भरता से ऐसे मॉडल बन सकते हैं जिनकी “गुणवत्ता या विविधता उत्तरोत्तर कम होती जाती है।” शोधकर्ताओं के अनुसार, नमूनाकरण पूर्वाग्रह – वास्तविक दुनिया का खराब प्रतिनिधित्व – प्रशिक्षण की कुछ पीढ़ियों के बाद एक मॉडल की विविधता खराब हो जाती है (हालांकि उन्होंने यह भी पाया कि वास्तविक दुनिया के कुछ डेटा को मिलाने से इसे कम करने में मदद मिलती है)।

कीज़ को OpenAI के o1 जैसे जटिल मॉडल में अतिरिक्त जोखिम दिखाई देता है, जिसके बारे में उनका मानना ​​है कि यह उनके सिंथेटिक डेटा में कठिन-से-स्पॉट मतिभ्रम पैदा कर सकता है। बदले में, ये डेटा पर प्रशिक्षित मॉडलों की सटीकता को कम कर सकते हैं – खासकर यदि मतिभ्रम के स्रोतों की पहचान करना आसान नहीं है।

“जटिल मॉडल मतिभ्रम करते हैं; जटिल मॉडलों द्वारा उत्पादित डेटा में मतिभ्रम होता है,” कीज़ ने कहा। “और o1 जैसे मॉडल के साथ, डेवलपर्स स्वयं यह नहीं समझा सकते कि कलाकृतियाँ क्यों दिखाई देती हैं।”

मिश्रित मतिभ्रम से अस्पष्ट-उगलने वाले मॉडल बन सकते हैं। नेचर जर्नल में प्रकाशित एक अध्ययन से पता चलता है कि त्रुटि-ग्रस्त डेटा पर प्रशिक्षित मॉडल कैसे उत्पन्न होते हैं और भी त्रुटि-ग्रस्त डेटा, और यह फीडबैक लूप मॉडल की भावी पीढ़ियों को कैसे ख़राब करता है। शोधकर्ताओं ने पाया कि पीढ़ी-दर-पीढ़ी मॉडल अधिक गूढ़ ज्ञान पर अपनी पकड़ खो देते हैं – वे अधिक सामान्य होते जा रहे हैं और अक्सर उनसे पूछे गए प्रश्नों के लिए अप्रासंगिक उत्तर दे रहे हैं।

स्क्रीनशॉट 2024 10 10 पूर्वाह्न 12.45.03 बजेस्क्रीनशॉट 2024 10 10 पूर्वाह्न 12.45.03 बजे
छवि क्रेडिट:इलिया शुमैलोव एट अल।

एक अनुवर्ती अध्ययन से पता चलता है कि अन्य प्रकार के मॉडल, जैसे छवि जनरेटर, इस प्रकार के पतन से प्रतिरक्षित नहीं हैं:

स्क्रीनशॉट 2024 10 10 पूर्वाह्न 12.47.50 बजेस्क्रीनशॉट 2024 10 10 पूर्वाह्न 12.47.50 बजे
छवि क्रेडिट:इलिया शुमैलोव एट अल।

सोल्डैनी इस बात से सहमत हैं कि “कच्चे” सिंथेटिक डेटा पर भरोसा नहीं किया जाना चाहिए, कम से कम यदि लक्ष्य भुलक्कड़ चैटबॉट और समरूप छवि जनरेटर के प्रशिक्षण से बचना है। उनका कहना है कि इसे “सुरक्षित रूप से” उपयोग करने के लिए पूरी तरह से समीक्षा करने, क्यूरेट करने और फ़िल्टर करने की आवश्यकता होती है, और आदर्श रूप से इसे ताज़ा, वास्तविक डेटा के साथ जोड़ना होता है – ठीक वैसे ही जैसे आप किसी अन्य डेटासेट के साथ करते हैं।

ऐसा करने में विफल रहने से अंततः मॉडल पतन हो सकता है, जहां एक मॉडल अपने आउटपुट में कम “रचनात्मक” – और अधिक पक्षपाती – हो जाता है, अंततः अपनी कार्यक्षमता से गंभीरता से समझौता करता है। हालाँकि इस प्रक्रिया को गंभीर होने से पहले पहचाना और रोका जा सकता है, लेकिन यह एक जोखिम है।

सोल्डैनी ने कहा, “शोधकर्ताओं को उत्पन्न डेटा की जांच करने, उत्पादन प्रक्रिया को दोहराने और कम गुणवत्ता वाले डेटा बिंदुओं को हटाने के लिए सुरक्षा उपायों की पहचान करने की आवश्यकता है।” “सिंथेटिक डेटा पाइपलाइन एक स्व-सुधार मशीन नहीं हैं; प्रशिक्षण के लिए उपयोग किए जाने से पहले उनके आउटपुट का सावधानीपूर्वक निरीक्षण और सुधार किया जाना चाहिए।

ओपनएआई के सीईओ सैम अल्टमैन ने एक बार तर्क दिया था कि एआई किसी दिन खुद को प्रभावी ढंग से प्रशिक्षित करने के लिए पर्याप्त सिंथेटिक डेटा तैयार करेगा। लेकिन – यह मानते हुए कि यह संभव भी है – तकनीक अभी तक मौजूद नहीं है। किसी भी प्रमुख एआई लैब ने प्रशिक्षित मॉडल जारी नहीं किया है अकेले सिंथेटिक डेटा पर।

कम से कम निकट भविष्य में, ऐसा लगता है कि हमें लूप में मनुष्यों की आवश्यकता होगी कहीं यह सुनिश्चित करने के लिए कि किसी मॉडल का प्रशिक्षण ख़राब न हो।

टेकक्रंच के पास एक एआई-केंद्रित न्यूज़लेटर है! यहां साइन अप करें इसे प्रत्येक बुधवार को अपने इनबॉक्स में प्राप्त करने के लिए।

अद्यतन: यह कहानी मूल रूप से 23 अक्टूबर को प्रकाशित हुई थी और अधिक जानकारी के साथ 24 दिसंबर को अद्यतन की गई थी।

Leave a Comment

You cannot copy content of this page