جوجل ديب مايند تتقدم أكثر في مجال الذكاء الافتراضي مع SIMA 2
كشفت شركة جوجل ديب مايند عن SIMA 2، وهو وكيل ذكاء اصطناعي متطور مصمم للعمل داخل العوالم الافتراضية ثلاثية الأبعاد بمستوى من الاستقلالية والتفكير تقول الشركة إنه يقربها من الروبوتات المستقبلية في العالم الحقيقي.
يعتمد العميل على نموذج SIMA في العام الماضي، ولكنه يعمل الآن على نظام Gemini AI من Google، مما يسمح له بالتخطيط، وشرح القرارات، والتعلم من خلال الخبرة، والتعاون مع المستخدمين بطريقة لم يكن النظام الأصلي قادرًا على القيام بها.
يصف DeepMind SIMA 2 بأنه "رفيق" في البيئات الافتراضية - وهو عبارة عن ذكاء اصطناعي يمكنه التحدث وتفسير الأهداف عالية المستوى وتنفيذ المهام باستخدام عناصر تحكم لوحة المفاتيح والماوس المحاكاة.
وقالت الشركة:
"هذه خطوة مهمة في اتجاه الذكاء الاصطناعي العام (AGI)، مع آثار مهمة على مستقبل الروبوتات وتجسيد الذكاء الاصطناعي بشكل عام."
وكيل أكثر كفاءة مبني على الجوزاء
يعد الترقية إلى Gemini أمرًا أساسيًا لتقدم SIMA 2.
بفضل القدرات المتعددة الوسائط، يستطيع العميل الاستجابة للنص والصوت والرسومات وحتى الرموز التعبيرية أثناء اتخاذ الإجراءات في الوقت الفعلي.
كتبت شركة Google DeepMind على X أن "SIMA 2 هو وكيل الذكاء الاصطناعي الأكثر كفاءة لدينا للعوالم ثلاثية الأبعاد الافتراضية ... مما يعني أنه يمكنك التحدث إليه من خلال النص أو الصوت أو حتى الصور."
يتيح هذا التحول للوكيل تفسير التعليمات المعقدة، وطرح أسئلة توضيحية، ووصف الخطوات التي ينوي اتخاذها.
ويستطيع النموذج أيضًا تكييف السلوك لمطابقة المهام التي لم يواجهها من قبل من خلال تحليل الصور المرئية على الشاشة وحدها - دون الوصول إلى أي بيانات داخلية للعبة.
كيف يعمل SIMA 2 عبر الألعاب التي لم يسبق له رؤيتها من قبل؟
أثناء الاختبارات، تمكنت SIMA 2 من حل عدد أكبر بكثير من المهام في بيئات غير مألوفة، بما في ذلك MineDojo وASKA.
وتراوحت معدلات النجاح بين 45 و75%، مقارنة بمعدلات نجاح تجربة SIMA 1 التي تراوحت بين 15 و30% في نفس الظروف.
في جميع المعايير المرجعية، أكمل الوكيل الأحدث 65% من المهام، أي أكثر من ضعف نسبة 31% التي أكملها SIMA 1.
وجدت شركة DeepMind أن SIMA 2 يمكنه نقل المفاهيم من لعبة إلى أخرى - على سبيل المثال، التعامل مع "الحصاد" في لعبة بناء على أنه مشابه لـ "التعدين" في لعبة الاستكشاف.
ويعد هذا المستوى من التجريد أحد السمات التي يأمل الباحثون أن تترجم في نهاية المطاف إلى علم الروبوتات.
قال جو مارينو، وهو عالم أبحاث في شركة DeepMind، إن حتى الإجراءات الأساسية تتطلب تفكيرًا متعدد الطبقات.
"إنها مجموعة معقدة حقًا من المهام التي تحتاج إلى حلها للتقدم."
تعكس التحديات متعددة الخطوات الموجودة في الألعاب المتطلبات المتسلسلة والمعقدة المطلوبة للمهام في الروبوتات الفيزيائية.
التعلم من خلال الخبرة، وليس فقط المظاهرات البشرية
بدأ تدريب SIMA 2 من خلال لقطات اللعب البشرية عبر ثمانية عناوين تجارية، بما في ذلك No Man’s Sky وGoat Simulator 3، بالإضافة إلى ثلاث بيئات مخصصة.
ولكن التقدم الأكثر أهمية هو قدرة العميل على التحسن دون الحاجة إلى بيانات مصنفة بواسطة الإنسان.
بعد المظاهرات الأولية، تحول النظام إلى التعلم الذاتي.
قام برنامج Gemini بإنشاء مهام جديدة، وتقييم محاولات SIMA 2، وتقديم النصائح بعد كل فشل.
على مدى محاولات متكررة، قام SIMA 2 بتعديل السلوك وإنتاج بيانات مساره الخاصة، مما شكل حلقة ساعدته على تحسين المهارات بشكل مستقل.
اختبار SIMA 2 داخل العوالم المولدة من صورة واحدة
كما قامت DeepMind باختبار SIMA 2 في العوالم التجريبية التي أنشأها Genie 3، وهو مشروع يمكنه إنشاء بيئات ثلاثية الأبعاد من صورة واحدة أو نص موجه.
وبعد لحظات من تشكيلها، هبط العميل في هذه العوالم غير المألوفة، وكان قادرًا على توجيه نفسه، وتفسير الأهداف، واتخاذ إجراءات ذات معنى - وهو السلوك الذي يقول الباحثون إنهم لم يلاحظوه في SIMA 1.
ووصف مارينو هذه القدرة على التكيف بأنها خطوة "أساسية" نحو الذكاء الاصطناعي العام والروبوتات المستقبلية: وكيل مرن يمكنه التنقل واستخدام الأدوات والتعاون مع الأشخاص في بيئات غير متوقعة.
إلى أي مدى يمكن لهذه التقنية أن تصل؟ آراء الخبراء
ويقول بعض الباحثين إن إنجازات SIMA 2 بارزة لأن التحكم في ألعاب متعددة من خلال المدخلات المرئية الخام كان يشكل تحديًا منذ فترة طويلة.
وأشار جوليان توجيليوس، الباحث في مجال الذكاء الاصطناعي بجامعة نيويورك، إلى أن المحاولات السابقة واجهت صعوبات، في إشارة إلى أنظمة الألعاب المتعددة السابقة مثل GATO.
"اللعب في الوقت الحقيقي من خلال الإدخال المرئي فقط هو "الوضع الصعب"."
ويظل البعض الآخر متشككًا بشأن تأثيره في العالم الحقيقي.
وقال ماثيو جوزديال من جامعة ألبرتا إنه ليس من المستغرب أن يعمل SIMA 2 بشكل جيد في العديد من الألعاب، حيث تعتمد معظمها على عناصر تحكم مماثلة في لوحة المفاتيح والفأرة.
"إذا وضعت لعبة ذات مدخلات غريبة أمامها، لا أعتقد أنها ستكون قادرة على الأداء الجيد."
كما تساءل عما إذا كان الفهم البصري الذي يتم تعلمه في الألعاب سوف ينتقل بسلاسة إلى الروبوتات المادية، حيث تكون بيانات الكاميرا أكثر فوضوية من رسومات ألعاب الفيديو.
ما الذي لا يزال يحد من SIMA 2 اليوم؟
تعترف شركة DeepMind علنًا بالضعف المستمر في النظام.
يواجه SIMA 2 صعوبة في أداء المهام الطويلة جدًا والمتعددة الخطوات، ويحتفظ فقط بالسياق قصير المدى للحفاظ على استجابة التفاعلات.
إن التحكم في لوحة المفاتيح والماوس المحاكاة أقل دقة من التحكم لدى اللاعب البشري، ولا يزال تفسيرها البصري يفشل في المشاهد ثلاثية الأبعاد المزدحمة أو المزدحمة.
وتكشف هذه الفجوات عن مدى ابتعاد الأنظمة الحالية عن الاستخبارات ذات الأغراض العامة.
في الوقت الحالي، يظل SIMA 2 مشروعًا بحثيًا متاحًا فقط لمجموعة مختارة من الأكاديميين والمطورين.
هل يمكن أن يؤدي برنامج SIMA 2 إلى تطوير روبوتات أفضل يومًا ما؟
وتعتقد شركة DeepMind أن المهارات التي يتعلمها SIMA 2 - الملاحة، واستخدام الأدوات، والتفكير، والتعاون - تشكل الأساس للروبوتات متعددة الأغراض المستقبلية.
ويأمل الفريق في الجمع بين التعلم بالتجربة والخطأ من SIMA مع العوالم الافتراضية اللامحدودة في Genie 3، مما يؤدي إلى إنشاء حلقة تدريب مستمرة حيث يتحسن العميل باستمرار.
وقال مارينو:
"لقد بدأنا للتو في استكشاف سطح ما هو ممكن."
قد تؤدي بيئات التعلم الافتراضية في نهاية المطاف إلى سد الفجوة بين المحاكاة والروبوتات الفيزيائية.