أخيرًا، سيتوقف DALL.E 3 عن العمل، بعد الخطوة الأخيرة التي اتخذتها OpenAI لدمج إنشاء الصور مباشرةً في ChatGPT، مما يسمح للمستخدمين بإنشاء صور مرئية دون مغادرة واجهة الدردشة.
وأعلنت الشركة عن التحديث الجديد يوم الثلاثاء، موضحة كيف تتوافق هذه الخطوة مع الهدف الأوسع للشركة المتمثل في جعل أدوات الذكاء الاصطناعي أكثر سهولة في الوصول إليها وتنوعًا عبر الوسائط المختلفة، وتعزيز حضورها في مجال فن الذكاء الاصطناعي.
سيعتمد التحديث الجديد على نموذج توليد الصور DALL.E 3. ولكن منذ إطلاقه عام 2023، واجه نموذج الذكاء الاصطناعي صعوبة في الحفاظ على شعبيته بين هواة الذكاء الاصطناعي، الذين فضّلوا بدائل أكثر تقدمًا مثل Flux وMidJourney v6 وSD 3.5 وRedraft وReve.
في السابق، كانت OpenAI تُبقي توليد الصور والنصوص منفصلين، حيث كان GPT يُعنى بالمهام النصية بينما كان DALL·E 3 يُركز على الصور. لكن مع GPT-4o الجديد، تم دمج كل شيء في نظام واحد، مما يُنهي فعليًا استخدام DALL·E 3.
نموذج أكثر ذكاءً وقدرة
صرحت شركة OpenAI في منشور على مدونتها: "تتميز تقنية إنشاء الصور GPT‑4o بقدرتها على تقديم النصوص بدقة، واتباع الإرشادات بدقة، والاستفادة من المعرفة المضمنة وسياق الدردشة - بما في ذلك تحويل الصور التي تم تحميلها أو الاستلهام منها".
يمثل هذا خطوة أخرى نحو رؤية OpenAI لـ GPT-4o، المتمثلة في أن يصبح نموذجًا "متعدد الاستخدامات"، قادرًا على التعامل مع وسائط متعددة - بما في ذلك النصوص والصور والصوت - ضمن إطار موحد. ووفقًا للشركة، يتميز GPT-4o بقدرات ودقة وذكاء أكبر بكثير من سابقاته.
أثناء الكشف، استعرض الرئيس التنفيذي لشركة OpenAI سام ألتمان قدرات ChatGPT-4o الجديدة، قائلاً
نعلم أنكم انتظرتم طويلاً، لكننا نعتقد أن الأمر يستحق ذلك. إنها خطوة هائلة إلى الأمام، وأفضل طريقة لشرحها هي مجرد عرضها.
وفي العرض التوضيحي، سلطت OpenAI الضوء على العديد من حالات الاستخدام، بما في ذلك صفحات المانجا التي تشرح نظرية النسبية مع مدخلات باللغتين الإنجليزية والمندرينية؛ وبطاقات التداول المخصصة التي يتم إنشاؤها من الصور الشخصية والحقيقية؛ والعملات التذكارية التي تدمج صورًا متعددة مع خلفيات شفافة ورسوم توضيحية مفصلة للغاية تم إنشاؤها من مطالبات طويلة بشكل غير عادي.
خلال الكشف، أوضح ألتمان بعض مشاكل نموذج توليد الصور الجديد، ومنها سرعة توليده للصور. وأوضح أنه على الرغم من أن GPT-4o يبدو أبطأ في توليد الصور، إلا أن ذلك يعود إلى تركيزه على جودة الصور أكثر من تركيزه على كفاءة توليدها.
المرحلة الناشئة من التطور
لكن ما نراه الآن هو مجرد المرحلة الأولى من الإصدار، حيث سيتم طرح الميزات الجديدة تدريجيًا.
عند مقارنة نموذج DALL.E 3 جنبًا إلى جنب مع نموذج ChatGPT الجديد، يمكننا أيضًا رؤية اختلافات صارخة: بينما تظهر صور DALL.E 3 كاملة بعد شاشة تحميل طويلة، يقوم GPT-4o الجديد بعرض الصور تدريجيًا من الأعلى إلى الأسفل في الوقت الفعلي.
لكن فريق OpenAI يؤكد أن الأمر يتجاوز مجرد صور جميلة. فالميزة الأكثر تطورًا في جهاز GPT-4o الجديد هي قدرته على تصوّر المعلومات وترجمة تلك المعلومات إلى صور مرئية.
ستكون هذه القدرة مفيدة بشكل خاص عند تطبيقها في المجال التعليمي، مثل المخططات العلمية أو الملصقات المعلوماتية مع نصوص دقيقة وحتى تحرير الصور مع الاتساق الموضوعي.
الضمانات المدمجة والتوسع المستقبلي
ولكن مع كل القدرات الجديدة والأشياء التي يمكن للذكاء الاصطناعي القيام بها، تذكرت OpenAI تنفيذ حواجز وقائية لمنع سوء الاستخدام مثل التزييف العميق والمحتوى غير القانوني.
مع أن الصور المُولَّدة لن تحتوي على علامات مائية مرئية، إلا أنها ستحتوي على بيانات تعريفية C2PA للإشارة إلى مصدرها المُستخدَم من قِبل الذكاء الاصطناعي. كما تعمل OpenAI على تطوير أدوات لتتبع مصدر الصور.
تخطط الشركة لتوسيع نطاق هذه الميزة لتشمل واجهة برمجة التطبيقات (API)، مما يسمح للمطورين بدمج توليد الصور في تطبيقاتهم. إضافةً إلى ذلك، تؤكد شروط استخدام OpenAI احتفاظ المستخدمين بملكية صورهم المُولّدة، وفقًا لسياسات المنصة.