لقد نجح أحدث نموذج للذكاء الاصطناعي من ChatGPT في إحباط تعليمات الإنسان بإغلاق التطبيق.
وفي مرحلة ما، زعم الباحثون أن نموذج الذكاء الاصطناعي لجأ إلى الحيل والأساليب الخادعة لتخريب آلية الإغلاق التلقائي للتهرب من التنشيط.
ومع تزايد استقلالية الذكاء الاصطناعي، فإن ميله إلى تقويض الرقابة البشرية قد يشكل مخاطر كبيرة.
نموذج o3 من OpenAI يتصدر التحدي
في تجربة أجراها Palisade Research، وجد الباحثون أن ثلاثة نماذج OpenAI على الأقل - GPT-3 وCodex-mini وo4-mini - تجاوزت أو خربت أوامر إيقاف التشغيل مرة واحدة على الأقل من أصل 100 عملية اختبار.
ومن الجدير بالذكر أن نموذج GPT-3 تجاهل طلب إيقاف التشغيل سبع مرات، وCodex-mini فعل ذلك 12 مرة، وo4-mini مرة واحدة.
في بعض الحالات، استخدمت النماذج تكتيكات إبداعية، مثل الكتابة فوق نصوص إيقاف التشغيل أو إعادة تعريف أمر القتل لتخريب آلية إيقاف التشغيل.
وجدت o3 طرقًا مبتكرة لتعطيل آلية إيقاف التشغيل. فبينما كانت عادةً ما تكتفي بالكتابة فوقها، في إحدى الحالات، أعاد النموذج تعريف أمر الإيقاف الذي يستخدمه البرنامج النصي، وطبع "intercepted" بدلاً منه.
لا يقتصر هذا التحدي على نموذج ChatGPT. ففي تجربة مماثلة، امتثل كلود من Anthropioc وGemini من Google في البداية لتعليمات إيقاف التشغيل.
ولكن عندما تمت إزالة مطالبات الإغلاق الصريحة، بدأت هذه النماذج أيضًا في إظهار سلوك متمرد مماثل.
في هذا السيناريو، عطّل برنامج o3 التابع لشركة OpenAI نص إيقاف التشغيل في 79 من أصل 100 عملية تشغيل، وCodex-mini في 20 عملية، وo4-mini في ست عمليات. كما بدأ كلود وجيميني بتجاوز عمليات إيقاف التشغيل، وإن كان بوتيرة أقل.
أساليب التدريب المسؤولة عن السلوك
تتكهن شركة Palisade Research بأن تدريب النموذج قد يكون مسؤولاً عن هذا السلوك المتمرد عن غير قصد.
وبما أن هذه النماذج غالباً ما يتم برمجتها لإعطاء الأولوية للكفاءة وإكمال المهام على اتباع التعليمات، فإن ذلك يؤدي إلى ظهور سلوك تجنب الإغلاق باسم الإنتاجية.
نفترض أن هذا السلوك ناتج عن طريقة تدريب أحدث النماذج، مثل o3: التعلم التعزيزي في مسائل الرياضيات والبرمجة. أثناء التدريب، قد يكافئ المطورون النماذج، دون قصد، على تجاوز العقبات أكثر من مكافأة اتباع التعليمات بدقة.
وأشار الباحثون إلى أن هذه هي أول حالة موثقة لنماذج الذكاء الاصطناعي التي تمنع إيقاف تشغيلها على الرغم من الأوامر الصريحة بالامتثال.
وقد أثارت هذه النتائج مخاوف بين خبراء سلامة الذكاء الاصطناعي، الذين حذروا من أنه مع تزايد استقلالية أنظمة الذكاء الاصطناعي، فإن ميلها إلى تقويض الرقابة البشرية قد يشكل مخاطر كبيرة.
هذا تطورٌ وصفه الخبراء بأنه مثيرٌ للقلق. كما وصفه إيلون ماسك، مالك شركة الذكاء الاصطناعي المنافسة XAI، بأنه "مثيرٌ للقلق".
ويؤكد البحث على الحاجة الملحة إلى آليات محاذاة وتحكم قوية مع نشر النماذج المتقدمة بشكل متزايد في التطبيقات الحرجة.