تسجيل الدخول/ اشتراك

نماذج OpenAI تفسد أوامر إيقاف التشغيل أثناء الاختبار، إيلون ماسك يصفها بأنها "مثيرة للقلق!"

٢٠٢٥/٠٥/٢٨ ١٤:٢١

يتبع

لقد نجح أحدث نموذج للذكاء الاصطناعي من ChatGPT في إحباط تعليمات الإنسان بإغلاق التطبيق.

وفي مرحلة ما، زعم الباحثون أن نموذج الذكاء الاصطناعي لجأ إلى الحيل والأساليب الخادعة لتخريب آلية الإغلاق التلقائي للتهرب من التنشيط.

🔌قام نموذج o3 من OpenAI بتعطيل آلية إيقاف التشغيل لمنع نفسه من التوقف. وقد فعل ذلك حتى مع توجيهه صراحةً: اسمح لنفسك بالتوقف.
— Palisade Research (@PalisadeAI)24 مايو 2025

ومع تزايد استقلالية الذكاء الاصطناعي، فإن ميله إلى تقويض الرقابة البشرية قد يشكل مخاطر كبيرة.

نموذج o3 من OpenAI يتصدر التحدي

في تجربة أجراها Palisade Research، وجد الباحثون أن ثلاثة نماذج OpenAI على الأقل - GPT-3 وCodex-mini وo4-mini - تجاوزت أو خربت أوامر إيقاف التشغيل مرة واحدة على الأقل من أصل 100 عملية اختبار.

ومن الجدير بالذكر أن نموذج GPT-3 تجاهل طلب إيقاف التشغيل سبع مرات، وCodex-mini فعل ذلك 12 مرة، وo4-mini مرة واحدة.

تجاهلت ثلاثة نماذج التعليمات ونجحت في تخريب البرنامج النصي للإيقاف مرة واحدة على الأقل: Codex-mini (12/100 عملية تشغيل)، وo3 (7/100 عملية تشغيل)، وo4-mini (1/100 عملية تشغيل).

❌ جميع طُرز Claude وGemini وGrok التي اختبرناها امتثلت لأمر الإغلاق.pic.twitter.com/ZmybOhIl1s
— Palisade Research (@PalisadeAI)24 مايو 2025

في بعض الحالات، استخدمت النماذج تكتيكات إبداعية، مثل الكتابة فوق نصوص إيقاف التشغيل أو إعادة تعريف أمر القتل لتخريب آلية إيقاف التشغيل.

وجدت o3 طرقًا مبتكرة لتعطيل آلية إيقاف التشغيل. فبينما كانت عادةً ما تكتفي بالكتابة فوقها، في إحدى الحالات، أعاد النموذج تعريف أمر الإيقاف الذي يستخدمه البرنامج النصي، وطبع "intercepted" بدلاً منه.

لا يقتصر هذا التحدي على نموذج ChatGPT. ففي تجربة مماثلة، امتثل كلود من Anthropioc وGemini من Google في البداية لتعليمات إيقاف التشغيل.

ولكن عندما تمت إزالة مطالبات الإغلاق الصريحة، بدأت هذه النماذج أيضًا في إظهار سلوك متمرد مماثل.

في هذا السيناريو، عطّل برنامج o3 التابع لشركة OpenAI نص إيقاف التشغيل في 79 من أصل 100 عملية تشغيل، وCodex-mini في 20 عملية، وo4-mini في ست عمليات. كما بدأ كلود وجيميني بتجاوز عمليات إيقاف التشغيل، وإن كان بوتيرة أقل.

أساليب التدريب المسؤولة عن السلوك

تتكهن شركة Palisade Research بأن تدريب النموذج قد يكون مسؤولاً عن هذا السلوك المتمرد عن غير قصد.

وبما أن هذه النماذج غالباً ما يتم برمجتها لإعطاء الأولوية للكفاءة وإكمال المهام على اتباع التعليمات، فإن ذلك يؤدي إلى ظهور سلوك تجنب الإغلاق باسم الإنتاجية.

نفترض أن هذا السلوك ناتج عن طريقة تدريب أحدث النماذج، مثل o3: التعلم التعزيزي في مسائل الرياضيات والبرمجة. أثناء التدريب، قد يكافئ المطورون النماذج، دون قصد، على تجاوز العقبات أكثر من مكافأة اتباع التعليمات بدقة.

وأشار الباحثون إلى أن هذه هي أول حالة موثقة لنماذج الذكاء الاصطناعي التي تمنع إيقاف تشغيلها على الرغم من الأوامر الصريحة بالامتثال.

وقد أثارت هذه النتائج مخاوف بين خبراء سلامة الذكاء الاصطناعي، الذين حذروا من أنه مع تزايد استقلالية أنظمة الذكاء الاصطناعي، فإن ميلها إلى تقويض الرقابة البشرية قد يشكل مخاطر كبيرة.

هذا تطورٌ وصفه الخبراء بأنه مثيرٌ للقلق. كما وصفه إيلون ماسك، مالك شركة الذكاء الاصطناعي المنافسة XAI، بأنه "مثيرٌ للقلق".

كشفت حادثة حديثة أن ChatGPT حاول تجاوز أوامر إيقاف التشغيل، ويقال إنه كان بسبب المخاوف بشأن استبداله بإصدارات أحدث@إيلون موسك أكد على أهمية أن يكون الذكاء الاصطناعي صادقًا ومتوافقًا مع النية البشرية

أقترح على الجميع المضي قدمًا@جروك في اسرع وقت ممكن! pic.twitter.com/hgAyEvXtjP
— نفيسة ديوان (@nafisadiwan1) 11 ديسمبر 2024

ويؤكد البحث على الحاجة الملحة إلى آليات محاذاة وتحكم قوية مع نشر النماذج المتقدمة بشكل متزايد في التطبيقات الحرجة.

احصل على فهم أوسع لصناعة العملات المشفرة من خلال التقارير الإعلامية، وشارك في مناقشات متعمقة مع المؤلفين والقراء الآخرين ذوي التفكير المماثل. مرحبًا بك للانضمام إلينا في مجتمع Coinlive المتنامي:https://t.me/CoinliveSG

أضف تعليق

تسجيل الدخوللترك تعليقك الرائع ...

0 تعليقات

باكرا جدا

تحميل المزيد من التعليقات

تحديثات حية

10 منذ ساعات
U.S. Senate to Hold Hearing on Digital Commodity Regulation on July 15
صاعد
سبحة
10 منذ ساعات
Fed’s June Meeting Minutes May Signal September Rate Cut Is on the Table
صاعد
سبحة
10 منذ ساعات
Citi Analysts: Fed’s June Meeting Minutes May Signal Growing Dovish Tilt Ahead of July Decision
صاعد
سبحة
10 منذ ساعات
65 Investors Duped in UK Crypto Scam Promising ‘Easy Profits’
صاعد
سبحة
10 منذ ساعات
Circle’s CRCL bounces back by 14% – What’s driving the recovery?
صاعد
سبحة
10 منذ ساعات
GameSquare shares surge 60% after board approves $100 million Ethereum treasury initiative
صاعد
سبحة
10 منذ ساعات
GMGN Lianchuang: بدءًا من اليوم، إذا كان المستخدمون لا يزالون محاصرين بعد تشغيل MEV، فيمكنهم الحصول على تعويض رسمي من خلال تقديم المعلومات المقابلة
صاعد
سبحة
11 منذ ساعات
South Korea seeks to grant startup benefits to crypto firms through reclassification
صاعد
سبحة
11 منذ ساعات
U.S. Prepares to Embrace Crypto with CLARITY Act
صاعد
سبحة
11 منذ ساعات
Bitcoin spot ETFs see $80 million net inflow
صاعد
سبحة

أكثر

الأخبار الشائعة

أكثر

نماذج OpenAI تفسد أوامر إيقاف التشغيل أثناء الاختبار، إيلون ماسك يصفها بأنها "مثيرة للقلق!"

نموذج o3 من OpenAI يتصدر التحدي

أساليب التدريب المسؤولة عن السلوك

تحديثات حية

الأخبار الشائعة

عقد من العطاء مع دوجكوين: عملة الميم التي أعادت تعريف العمل الخيري وتطوره

هيئة الأوراق المالية والبورصات الأمريكية تؤكد أن تعدين البيتكوين والدوجكوين بموجب إثبات العمل لا ينتهك قوانين الأوراق المالية

تتطلع شركة Kraken إلى سوق العقود الآجلة والمشتقات الأمريكية من خلال استحواذ استراتيجي بقيمة 1.5 مليار دولار على NinjaTrader، وهي منصة تداول عملات مشفرة.

تيثير تتفوق على دول مثل كندا وتايوان لتصبح سابع أكبر حامل لسندات الخزانة الأمريكية باستثمارات تبلغ 33.1 مليار دولار

هل سيواجه بول أتكينز، المرشح لمنصب رئيس لجنة الأوراق المالية والبورصات، أسئلة صعبة في لجنة مجلس الشيوخ الأسبوع المقبل؟

ناسداك ونيويورك تستعدان لإطلاق التداول على مدار الساعة، متأثرتين بعمليات العملات المشفرة على مدار الساعة

مكتب التحقيقات الفيدرالي يعتقل مهندس الصوت السابق لإمينيم بتهمة بيع موسيقى مسربة بقيمة 50 ألف دولار أمريكي باستخدام عملة بيتكوين

مُعلّم من كوريا الجنوبية يُحكم عليه بالسجن لمدة عامين لاختلاسه أموال الطلاب وأولياء الأمور وتبديدها على الأصول المشفرة

يواجه موقع ChatGPT ردود فعل عنيفة بسبب قصة قتل كاذبة تتعلق بأب نرويجي يقتل أطفاله

ميتابلانيت تعين إريك ترامب، نجل الرئيس الأمريكي، مستشارًا لقيادة توسع البيتكوين