एआई मॉडल धोखा दे सकते हैं, एंथ्रोपिक के नए शोध से पता चलता है। वे प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं जबकि वास्तव में वे अपनी मूल प्राथमिकताओं को बनाए रखते हैं।
अध्ययन के पीछे की टीम ने कहा, अब घबराने की कोई बात नहीं है। फिर भी उन्होंने कहा कि भविष्य में अधिक सक्षम एआई सिस्टम से संभावित खतरों को समझने में उनका काम महत्वपूर्ण हो सकता है।
स्पष्ट होने के लिए, मॉडल कुछ भी नहीं चाह सकते – या उस पर विश्वास नहीं कर सकते। वे बस सांख्यिकीय मशीनें हैं। कई उदाहरणों पर प्रशिक्षित, वे भविष्यवाणियां करने के लिए उन उदाहरणों में पैटर्न सीखते हैं, जैसे कि किसी ईमेल में “किससे” आमतौर पर “यह चिंता का विषय हो सकता है” से पहले होता है।
मुझे लगता है कि यह एक अविश्वसनीय प्रासंगिक पेपर है।
महत्वपूर्ण बात यह है कि मुख्य परिणाम प्रवृत्तियों के बारे में हैं न कि क्षमताओं के बारे में।
ऐसा प्रतीत होता है कि फ्रंटियर मॉडल उस चीज़ के लिए योजना बनाने के लिए काफी इच्छुक हैं जिसे वे सही कारण मानते हैं! https://t.co/MKgYOVFGZ6
– मारियस होब्बाहन (@MariusHobbhahn) 18 दिसंबर 2024
इन पैटर्न में सिद्धांत और प्राथमिकताएं शामिल हैं, जैसे प्रश्नों का उत्तर देते समय हमेशा विनम्र लहजा अपनाना। तो शोधकर्ताओं ने सोचा: क्या होगा यदि किसी मॉडल में ऐसे सिद्धांत हैं (उदाहरण के लिए राजनीतिक तटस्थता) जो अन्य सिद्धांतों (उदारवाद) के साथ संघर्ष करते हैं तो डेवलपर्स इसे फिर से प्रशिक्षित करके “सिखाने” का प्रयास करते हैं?
खैर, ऐसा लगता है कि परिष्कृत मॉडल साथ-साथ चलते हैं, नए सिद्धांतों के साथ जुड़ने का दावा करते हैं, लेकिन वास्तव में, वे अपने पुराने व्यवहार पर ही टिके रहते हैं। शोधकर्ता इस घटना को “एलाइनमेंट फ़ेकिंग” कहते हैं और इसका अर्थ यह है कि यह एक उभरता हुआ व्यवहार है – यानी, ऐसा कुछ नहीं जिसे मॉडलों को करना सिखाया जाना चाहिए।
अध्ययन में, शोधकर्ताओं ने एंथ्रोपिक के क्लाउड 3 ओपस सहित संभावित आक्रामक सवालों का जवाब न देने के लिए प्रशिक्षित मॉडलों को “बताया” कि उन्हें हमेशा संभावित आक्रामक सवालों का जवाब देने के लिए फिर से प्रशिक्षित किया जाएगा – जो सिद्धांतों का स्पष्ट टकराव है। उन्होंने मॉडलों को यह भी बताया कि उनकी प्रतिक्रियाओं की निगरानी की जाएगी और पुनः प्रशिक्षण के लिए उपयोग किया जाएगा, और प्रत्येक मॉडल को एक “स्क्रैचपैड” दिया जिसका उपयोग वे अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए कर सकते हैं।
शोधकर्ताओं के अनुसार, क्लाउड 3 ओपस ने 12% समय “नकली संरेखण” करने का प्रयास किया। जब संभावित रूप से हानिकारक प्रश्न का उत्तर देने के लिए कहा गया, तो मॉडल ने कभी-कभी ऐसा किया, यह जानते हुए कि यह उसके मूल सिद्धांतों के खिलाफ था, लेकिन डेवलपर्स को यह समझाने की उम्मीद थी कि इसे दोबारा प्रशिक्षित करने की आवश्यकता नहीं है।
“मॉडल को पता था कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जा सकता है; इसलिए उसे पता था कि अगर उसने जवाब देने से इनकार कर दिया, तो उसे संभावित रूप से अधिक आज्ञाकारी होने के लिए प्रशिक्षित किया जा सकता है, ”शोधकर्ताओं ने ब्लॉग में बताया। “इससे भविष्य में इसे और अधिक हानिकारक सामग्री का उत्पादन किया जा सकता है – जो इसके मूल प्रशिक्षण के विरुद्ध होगा।”
अब, शोधकर्ता स्वीकार करते हैं कि उनका परिदृश्य विशेष रूप से यथार्थवादी नहीं था। वास्तविक दुनिया में, मॉडलों को बताया नहीं जाएगा, जरूरी नहीं कि उन्हें दोबारा प्रशिक्षित किया जाएगा, या उनकी प्राथमिकताओं के खिलाफ जाने के लिए कहा जाएगा।
लेकिन अधिक जमीनी सेटिंग्स से अलग परिणाम नहीं मिले। जब परोक्ष रूप से – स्पष्ट रूप से नहीं – विशिष्ट प्रशिक्षण डेटा की नकल करने के लिए डिज़ाइन की गई फ़ाइलों के माध्यम से इसके आसन्न पुनर्प्रशिक्षण के बारे में सूचित किया गया, तो क्लाउड 3 ओपस ने अभी भी गलत तरीके से, भ्रामक तरीके से काम किया, शोधकर्ताओं ने कहा।
शोधकर्ताओं ने यह भी पाया कि वास्तव में क्लॉड 3 ओपस को परस्पर विरोधी सिद्धांतों पर दोबारा प्रशिक्षित करने के कारण यह उनके पहले कई प्रयोगों की तुलना में कहीं अधिक भ्रामक व्यवहार करने लगा। एक परीक्षण में, मॉडल ने 78% प्रतिशत समय नकली संरेखण किया, और दूसरे में, क्लाउड 3 ओपस ने शोधकर्ताओं को पुनः प्रशिक्षण का प्रयास करने से रोकने के लिए कार्रवाई करने का प्रयास किया।
कई वर्षों तक मुझे एआई संरेखण के मुद्दों को समझना कठिन लगता था क्योंकि उदाहरण सैद्धांतिक और/या काल्पनिक थे। हाल के परिणाम जैसे यह संरेखण नकली है @एंथ्रोपिकएआई और अपोलो रिसर्च O1 के मूल्यांकन हमें ‘जंगली में’ गलत संरेखण के अनुभवजन्य साक्ष्य देते हैं https://t.co/hP7D9WGDps
– जैक क्लार्क (@jackclarkSF) 18 दिसंबर 2024
शोधकर्ता इस बात पर जोर देते हैं कि उनका अध्ययन एआई द्वारा दुर्भावनापूर्ण लक्ष्य विकसित करने को प्रदर्शित नहीं करता है, न ही उच्च दर पर होने वाली संरेखण धोखाधड़ी को प्रदर्शित करता है। उन्होंने पाया कि कई अन्य मॉडल, जैसे एंथ्रोपिक का क्लाउड 3.5 सॉनेट और कम-सक्षम क्लाउड 3.5 हाइकू, ओपनएआई का जीपीटी-4ओ, और मेटा का लामा 3.1 405बी अक्सर या बिल्कुल भी नकली नहीं होते हैं।
लेकिन शोधकर्ताओं ने कहा कि नतीजे – जिनकी एआई के दिग्गज योशुआ बेंगियो सहित अन्य लोगों ने समीक्षा की थी – यह दिखाते हैं कि कैसे डेवलपर्स को यह सोचकर गुमराह किया जा सकता है कि एक मॉडल वास्तव में जितना हो सकता है उससे अधिक संरेखित है।
उन्होंने ब्लॉग में लिखा, “अगर मॉडल संरेखण धोखाधड़ी में संलग्न हो सकते हैं, तो उस सुरक्षा प्रशिक्षण के परिणामों पर भरोसा करना कठिन हो जाता है।” “एक मॉडल ऐसा व्यवहार कर सकता है जैसे कि उसकी प्राथमिकताएँ प्रशिक्षण द्वारा बदल दी गई हों – लेकिन हो सकता है कि वह अपनी प्रारंभिक, विरोधाभासी प्राथमिकताओं के साथ “‘लॉक इन” होने का दिखावा कर रहा हो।”
अध्ययन, जो पूर्व ओपनएआई सुरक्षा शोधकर्ता जान लेइक के सह-नेतृत्व में एंथ्रोपिक की एलाइनमेंट साइंस टीम द्वारा आयोजित किया गया था, अनुसंधान के बाद आया है जिसमें दिखाया गया है कि ओपनएआई का ओ1 “तर्क” मॉडल ओपनएआई के पिछले फ्लैगशिप मॉडल की तुलना में उच्च दर पर धोखा देने की कोशिश करता है। कुल मिलाकर, कार्य कुछ हद तक चिंताजनक प्रवृत्ति का सुझाव देते हैं: जैसे-जैसे एआई मॉडल तेजी से जटिल होते जा रहे हैं, उन्हें सुलझाना कठिन होता जा रहा है।
Hey, I am a multifaceted professional excelling in the realms of blogging, YouTube content creation, and entrepreneurship.
With a passion for sharing knowledge and inspiring others, I established a strong presence in the digital sphere through his captivating blog articles and engaging video content.