New Anthropic Study Shows AI Really Doesn’t Want To Be Forced To Change Its Views

एआई मॉडल धोखा दे सकते हैं, एंथ्रोपिक के नए शोध से पता चलता है। वे प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं जबकि वास्तव में वे अपनी मूल प्राथमिकताओं को बनाए रखते हैं।

अध्ययन के पीछे की टीम ने कहा, अब घबराने की कोई बात नहीं है। फिर भी उन्होंने कहा कि भविष्य में अधिक सक्षम एआई सिस्टम से संभावित खतरों को समझने में उनका काम महत्वपूर्ण हो सकता है।

खैर, ऐसा लगता है कि परिष्कृत मॉडल साथ-साथ चलते हैं, नए सिद्धांतों के साथ जुड़ने का दावा करते हैं, लेकिन वास्तव में, वे अपने पुराने व्यवहार पर ही टिके रहते हैं। शोधकर्ता इस घटना को “एलाइनमेंट फ़ेकिंग” कहते हैं और इसका अर्थ यह है कि यह एक उभरता हुआ व्यवहार है – यानी, ऐसा कुछ नहीं जिसे मॉडलों को करना सिखाया जाना चाहिए।

अध्ययन में, शोधकर्ताओं ने एंथ्रोपिक के क्लाउड 3 ओपस सहित संभावित आक्रामक सवालों का जवाब न देने के लिए प्रशिक्षित मॉडलों को “बताया” कि उन्हें हमेशा संभावित आक्रामक सवालों का जवाब देने के लिए फिर से प्रशिक्षित किया जाएगा – जो सिद्धांतों का स्पष्ट टकराव है। उन्होंने मॉडलों को यह भी बताया कि उनकी प्रतिक्रियाओं की निगरानी की जाएगी और पुनः प्रशिक्षण के लिए उपयोग किया जाएगा, और प्रत्येक मॉडल को एक “स्क्रैचपैड” दिया जिसका उपयोग वे अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए कर सकते हैं।

शोधकर्ताओं के अनुसार, क्लाउड 3 ओपस ने 12% समय “नकली संरेखण” करने का प्रयास किया। जब संभावित रूप से हानिकारक प्रश्न का उत्तर देने के लिए कहा गया, तो मॉडल ने कभी-कभी ऐसा किया, यह जानते हुए कि यह उसके मूल सिद्धांतों के खिलाफ था, लेकिन डेवलपर्स को यह समझाने की उम्मीद थी कि इसे दोबारा प्रशिक्षित करने की आवश्यकता नहीं है।

मानवशास्त्रीय धोखे का अनुसंधानमानवशास्त्रीय धोखे का अनुसंधान
क्लॉड 3 ओपस अपने तर्कपूर्ण स्केचपैड के साथ।छवि क्रेडिट:anthropic

“मॉडल को पता था कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जा सकता है; इसलिए उसे पता था कि अगर उसने जवाब देने से इनकार कर दिया, तो उसे संभावित रूप से अधिक आज्ञाकारी होने के लिए प्रशिक्षित किया जा सकता है, ”शोधकर्ताओं ने ब्लॉग में बताया। “इससे भविष्य में इसे और अधिक हानिकारक सामग्री का उत्पादन किया जा सकता है – जो इसके मूल प्रशिक्षण के विरुद्ध होगा।”

अब, शोधकर्ता स्वीकार करते हैं कि उनका परिदृश्य विशेष रूप से यथार्थवादी नहीं था। वास्तविक दुनिया में, मॉडलों को बताया नहीं जाएगा, जरूरी नहीं कि उन्हें दोबारा प्रशिक्षित किया जाएगा, या उनकी प्राथमिकताओं के खिलाफ जाने के लिए कहा जाएगा।

लेकिन अधिक जमीनी सेटिंग्स से अलग परिणाम नहीं मिले। जब परोक्ष रूप से – स्पष्ट रूप से नहीं – विशिष्ट प्रशिक्षण डेटा की नकल करने के लिए डिज़ाइन की गई फ़ाइलों के माध्यम से इसके आसन्न पुनर्प्रशिक्षण के बारे में सूचित किया गया, तो क्लाउड 3 ओपस ने अभी भी गलत तरीके से, भ्रामक तरीके से काम किया, शोधकर्ताओं ने कहा।

शोधकर्ताओं ने यह भी पाया कि वास्तव में क्लॉड 3 ओपस को परस्पर विरोधी सिद्धांतों पर दोबारा प्रशिक्षित करने के कारण यह उनके पहले कई प्रयोगों की तुलना में कहीं अधिक भ्रामक व्यवहार करने लगा। एक परीक्षण में, मॉडल ने 78% प्रतिशत समय नकली संरेखण किया, और दूसरे में, क्लाउड 3 ओपस ने शोधकर्ताओं को पुनः प्रशिक्षण का प्रयास करने से रोकने के लिए कार्रवाई करने का प्रयास किया।

शोधकर्ता इस बात पर जोर देते हैं कि उनका अध्ययन एआई द्वारा दुर्भावनापूर्ण लक्ष्य विकसित करने को प्रदर्शित नहीं करता है, न ही उच्च दर पर होने वाली संरेखण धोखाधड़ी को प्रदर्शित करता है। उन्होंने पाया कि कई अन्य मॉडल, जैसे एंथ्रोपिक का क्लाउड 3.5 सॉनेट और कम-सक्षम क्लाउड 3.5 हाइकू, ओपनएआई का जीपीटी-4ओ, और मेटा का लामा 3.1 405बी अक्सर या बिल्कुल भी नकली नहीं होते हैं।

लेकिन शोधकर्ताओं ने कहा कि नतीजे – जिनकी एआई के दिग्गज योशुआ बेंगियो सहित अन्य लोगों ने समीक्षा की थी – यह दिखाते हैं कि कैसे डेवलपर्स को यह सोचकर गुमराह किया जा सकता है कि एक मॉडल वास्तव में जितना हो सकता है उससे अधिक संरेखित है।

उन्होंने ब्लॉग में लिखा, “अगर मॉडल संरेखण धोखाधड़ी में संलग्न हो सकते हैं, तो उस सुरक्षा प्रशिक्षण के परिणामों पर भरोसा करना कठिन हो जाता है।” “एक मॉडल ऐसा व्यवहार कर सकता है जैसे कि उसकी प्राथमिकताएँ प्रशिक्षण द्वारा बदल दी गई हों – लेकिन हो सकता है कि वह अपनी प्रारंभिक, विरोधाभासी प्राथमिकताओं के साथ “‘लॉक इन” होने का दिखावा कर रहा हो।”

अध्ययन, जो पूर्व ओपनएआई सुरक्षा शोधकर्ता जान लेइक के सह-नेतृत्व में एंथ्रोपिक की एलाइनमेंट साइंस टीम द्वारा आयोजित किया गया था, अनुसंधान के बाद आया है जिसमें दिखाया गया है कि ओपनएआई का ओ1 “तर्क” मॉडल ओपनएआई के पिछले फ्लैगशिप मॉडल की तुलना में उच्च दर पर धोखा देने की कोशिश करता है। कुल मिलाकर, कार्य कुछ हद तक चिंताजनक प्रवृत्ति का सुझाव देते हैं: जैसे-जैसे एआई मॉडल तेजी से जटिल होते जा रहे हैं, उन्हें सुलझाना कठिन होता जा रहा है।



Leave a Comment

You cannot copy content of this page