أعلنت Stability.ai، وهي شركة رائدة في مجال الذكاء الاصطناعي مفتوحة المصدر تأسست في عام 2019، مؤخرًا عن أحدث إنجازاتها – نموذج الذكاء الاصطناعي لنشر الفيديو المستقر. يمثل هذا الابتكار قفزة كبيرة في قدرات الذكاء الاصطناعي، مما يتيح تحويل الصور الثابتة إلى رسوم متحركة آسرة. على غرار سابقتها، نموذج الصورة Stable Diffusion، تم توفير هذا العرض الجديد من خلال مستودع Github الخاص بـ Stability.ai لمعاينة البحث.
تحريك الصور الثابتة: المفهوم الأساسي
يكمن جوهر Stable Video Diffusion في قدرته على إنشاء تسلسلات متحركة بناءً على الصور الثابتة التي تم تحميلها. ومن خلال الاستفادة من محتوى الصورة، يقوم نموذج الذكاء الاصطناعي بصياغة مقطع فيديو من خلال إنشاء 25 إطارًا، تنتهي برسوم متحركة مختصرة. علاوة على ذلك، يتمتع المستخدمون بالمرونة لإنتاج مقاطع فيديو ذات 14 إطارًا. ومع ذلك، فإن دقة الرسوم المتحركة الناتجة، التي تصل إلى الحد الأقصى 576 × 1024، تتوقف على حجم الصورة التي تم تحميلها.
المزايا والقيود
يدعي موقع Stability.ai تفوق نظام Stable Video Diffusion على نماذج الذكاء الاصطناعي المنافسة، مستشهدًا بدراسة مصاحبة لإصداره. ومع ذلك، من الضروري الاعتراف بأن هذه الدراسة تفتقر إلى مراجعة النظراء، مما يثير تساؤلات حول الحياد. والجدير بالذكر أن المقارنة شملت نموذج GEN-2 من Runway وPika Labs. عرض.
ومع ذلك، توجد قيود. تقتصر مدة مقاطع الفيديو التي يتم إنشاؤها من الصور الثابتة على 4 ثوانٍ تقريبًا. على الرغم من أنه مناسب لتكرار المحتوى، إلا أنه لا يصل إلى مستوى إبداعات الرسوم المتحركة الأصلية. علاوة على ذلك، فإن الفشل العرضي في إنشاء الرسوم المتحركة وحالات الحركة البطيئة أو غير الطبيعية هي من بين عيوب النموذج.
التحديات التي يواجهها النموذج
مثل العديد من نظرائه في مجال الذكاء الاصطناعي، يواجه نظام Stable Video Diffusion بعض التحديات. والجدير بالذكر أن النص الموجود داخل الصور قد يفقد وضوحه عند ترجمته إلى تنسيق فيديو، بينما قد تتعرض عناصر الوجه للتشوه. تم تصميم النموذج حاليًا لأغراض البحث فقط، ويتوفر الوصول إلى النموذج عبر مستودع GitHub الخاص بـ Stability.ai، وإن كان يتطلب خبرة سابقة في تنزيل التعليمات البرمجية وتنفيذها.
لمحة عن المستقبل
يساهم كشف Stability.ai عن Stable Video Diffusion في التطور السريع لتكنولوجيا الذكاء الاصطناعي. في الوقت نفسه، قدمت Pika Labs مؤخرًا Pika 1.0، وهو مولد الذكاء الاصطناعي لتحويل النص إلى فيديو، مما يعزز التقدم المتسارع في توليد الفيديو والصور من خلال المساعي البحثية المستمرة.