المؤلف: تشاو جيان
في 27 يناير، قبل عامين، شاركت "جيازي جوانغنيان" في صالون حول موضوع مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي. وكان هناك تفاعل مثير للاهتمام في الاجتماع: متى سيبدأ جيل فيديو الذكاء الاصطناعي في "لحظة منتصف الرحلة"؟
الخيارات متاحة خلال نصف عام، أو خلال عام واحد، أو عام أو عامين أو أكثر.
أمس، أعلنت OpenAI الإجابة الدقيقة: 20 يومًا.
أصدرت OpenAI أمس Sora، وهو نموذج فيديو جديد تم إنشاؤه بواسطة الذكاء الاصطناعي. مع مزايا الأداء المرئية للعين المجردة ووقت إنشاء الفيديو يصل إلى 60 ثانية، بعد النصوص (GPT-4) والصور (DALL·E 3)، كما حققت "الريادة البعيدة" في مجال توليد الفيديو. نحن على بعد خطوة واحدة من AGI (الذكاء العام الاصطناعي).
من الجدير بالذكر أن شركة Stability AI النجمة للذكاء الاصطناعي أصدرت في الأصل نموذج فيديو جديد SVD1.1 أمس، ولكن بسبب الاصطدام مع Sora، تم دفعها رسميًا تم حذف المقال بسرعة.
غرّد كريستوبال فالينزويلا، المؤسس المشارك والرئيس التنفيذي لشركة Runway، أحد رواد إنتاج فيديو الذكاء الاصطناعي، قائلاً: "اللعبة بدأت."< /p>
OpenAI أصدرت أيضًا وثيقة فنية بالأمس، ولكن فيما يتعلق بالبنية النموذجية وأساليب التدريب، فإنها لم تصدر أي تقنية مبتكرة على مستوى العبقرية، ولكن المزيد من تحسين مسارات التكنولوجيا الحالية.
ولكن مثل ChatGPT، الذي تم إطلاقه منذ أكثر من عام، فإن سر OpenAI هو قانون القياس المجرب والمختبر - عندما يكون نموذج الفيديو كافيًا " " الكبيرة" ستنتج القدرة على ظهور الذكاء.
المشكلة هي أن الجميع تقريبًا يعرفون "الجماليات العنيفة" للتدريب على النماذج الكبيرة. لماذا يتم استخدام OpenAI مرة أخرى هذه المرة؟
1. سر البيانات: من الرمز المميز إلى التصحيح
لقد مر المسار الفني لإنشاء مقاطع الفيديو بشكل أساسي بأربع مراحل: الشبكات المتكررة (RNN)، والشبكات الخصومة التوليدية (GAN)، والمحولات الانحدارية الذاتية، ونماذج الانتشار.
اليوم، معظم نماذج الفيديو الرائدة هي نماذج انتشار، مثل Runway وPika وما إلى ذلك. أصبحت نماذج الانحدار الذاتي أيضًا اتجاهًا بحثيًا شائعًا نظرًا لقدراتها الأفضل متعددة الوسائط وقابلية التوسع، مثل VideoPoet الذي أصدرته Google في ديسمبر 2023.
Sora هو نموذج جديد لمحولات الانتشار. وكما يتبين من الاسم، فهو يجمع بين الخصائص المزدوجة لنموذج الانتشار ونموذج الانحدار الذاتي. تم اقتراح بنية محولات الانتشار في عام 2023 من قبل ويليام بيبلز من جامعة كاليفورنيا، بيركلي، وسينينغ شيه من جامعة نيويورك.
كيفية تدريب هذا النموذج الجديد؟ في الوثيقة الفنية، اقترحت OpenAI طريقة لاستخدام التصحيحات (التصحيحات المرئية) كبيانات فيديو لتدريب نماذج الفيديو، المستوحاة من الرموز المميزة لنماذج اللغات الكبيرة. تعمل الرموز المميزة على توحيد أوضاع النص المتعددة بشكل أنيق - التعليمات البرمجية والرياضيات واللغات الطبيعية المختلفة - بينما تعمل التصحيحات على توحيد الصور ومقاطع الفيديو.
يقوم OpenAI بتدريب الشبكة لتقليل أبعاد البيانات المرئية. تستقبل هذه الشبكة الفيديو الخام كمدخل وتخرج تمثيلاً كامنًا يتم ضغطه في الزمان والمكان. يتم تدريب سورا على هذه المساحة الكامنة المضغوطة ويقوم بعد ذلك بإنشاء مقاطع فيديو. تقوم OpenAI أيضًا بتدريب نموذج وحدة فك ترميز مطابق يقوم بتعيين التمثيل الكامن الذي تم إنشاؤه مرة أخرى إلى مساحة البكسل.
ذكرت OpenAI أن طرق إنشاء الصور والفيديو السابقة غالبًا ما تقوم بتغيير حجم الفيديو أو قصه أو قصه إلى أبعاد قياسية، مما يفقد جودة إنشاء الفيديو. على سبيل المثال، فيديو مدته 4 ثواني بدقة 256×256. بعد تصحيح بيانات الصورة والفيديو، يمكن تدريب البيانات الأصلية لمقاطع الفيديو والصور ذات الدقة والمدد ونسب العرض إلى الارتفاع المختلفة دون ضغط البيانات.
توفر طريقة معالجة البيانات هذه ميزتين للتدريب النموذجي:
< strong>أولاً، مرونة أخذ العينات يمكن لـ Sora أخذ عينات من فيديو بشاشة عريضة بدقة 1920 × 1080 بكسل، وفيديو عمودي بدقة 1080 × 1920 وكل شيء بينهما، وإنشاء محتوى مباشرة للأجهزة المختلفة في نسبة العرض إلى الارتفاع الأصلية الخاصة بها، وإنشاء نموذج أولي سريع للمحتوى بحجم أقل. كل هذه تستخدم نفس النموذج.
ثانيًا، قم بتحسين الإطار والتكوين. لقد وجدت OpenAI تجريبيًا أن التدريب على مقاطع الفيديو بنسبة العرض إلى الارتفاع الأصلية يعمل على تحسين التركيب والتأطير. على سبيل المثال، يؤدي النموذج الشائع الذي يقوم بقص جميع مقاطع الفيديو التدريبية إلى مربعات إلى إنتاج مقاطع فيديو ذات مواضيع مرئية جزئيًا فقط. في المقابل، تم تحسين إطار الفيديو الخاص بسورا.
نموذج تم تدريبه على المحاصيل المربعة (يسار)، نموذج سورا (يمين)
على مستوى فهم اللغة، وجدت OpenAI أن التدريب على التسميات التوضيحية للفيديو عالية الوصف يعمل على تحسين دقة النص والجودة الإجمالية للفيديو.
ولتحقيق هذه الغاية، طبقت OpenAI "تقنية إعادة التسميات التوضيحية" التي تم تقديمها في DALL·E 3 - أولًا قم بتدريب نموذج مولد الترجمة A الوصفي للغاية ثم استخدمه لإنشاء ترجمات نصية لمقاطع الفيديو في مجموعة بيانات التدريب.
بالإضافة إلى ذلك، وكما هو الحال مع DALL·E 3، يستخدم OpenAI أيضًا GPT لتحويل مطالبات المستخدم القصيرة إلى ترجمات مفصلة أطول ثم إرسالها إلى نموذج الفيديو. يتيح ذلك لـ Sora إنشاء مقاطع فيديو عالية الجودة تتبع مطالبات المستخدم بدقة.
كلمات سريعة: امرأة ترتدي بنطال جينز أزرق وقميصًا أبيض، وتقوم بنزهة ممتعة في مومباي بالهند خلال مهرجان ملون.
بالإضافة إلى الفيديو المولد بالنص، يدعم Sora أيضًا "الفيديو المولد بالصور" و"الفيديو المولد بالفيديو".
كلمات سريعة: في قاعة تاريخية مزخرفة، تصل موجة مد هائلة إلى ذروتها وتبدأ في الانهيار. يغتنم راكبا الأمواج اللحظة، ويتنقلان بمهارة في وجه الموجة.
تمكن هذه الميزة Sora من تنفيذ مجموعة متنوعة من مهام تحرير الصور والفيديو، وإنشاء مقاطع فيديو متكررة مثالية، وصور ثابتة متحركة، وتمديد مقاطع الفيديو للأمام أو للخلف في الوقت المناسب، والمزيد.
2. سر الحوسبة: لا يزال "جماليات العنف"
في الوثائق الفنية لـ Sora، لم تكشف OpenAI عن التفاصيل الفنية للنموذج (انتقد Elon Musk ذات مرة OpenAI لأنه لم يعد كما كان من المفترض أن يكون عليه في الأصل عندما تأسست) مفتوحة")، ولكنها تعبر فقط عن مقياس المفهوم الأساسي.
اقترحت شركة OpenAI لأول مرة سر التدريب النموذجي في قانون التوسع لعام 2020. وفقا لقانون القياس، فإن أداء النموذج سوف يستمر في التحسن مثل قانون مور الذي يعتمد على قوة حاسوبية كبيرة، ومعلمات كبيرة، وبيانات ضخمة. ولا ينطبق هذا القانون على نماذج اللغة فحسب، بل ينطبق أيضا على النماذج متعددة الوسائط.
اتبعت OpenAI هذه المجموعة من "الجماليات العنيفة" لاكتشاف القدرة الناشئة لنماذج اللغة الكبيرة، وفي النهاية طورت ChatGPT التي صنعت عصرًا جديدًا.
الأمر نفسه ينطبق على نموذج Sora، الذي، باستخدام Scaling Law، وصل إلى "لحظة منتصف الرحلة" في الفيديو في فبراير 2024 دون سابق إنذار.
ذكرت OpenAI أن المحول أظهر خصائص قياس ممتازة في مجالات مختلفة، بما في ذلك نمذجة اللغة ورؤية الكمبيوتر وتوليد الصور وتوليد الفيديو. يوضح الشكل أدناه أنه أثناء عملية التدريب، مع نفس العينات، مع زيادة مقياس حساب التدريب، تتحسن جودة الفيديو بشكل ملحوظ.
وجدت OpenAI أن نماذج الفيديو تظهر العديد من القدرات الناشئة المثيرة للاهتمام عند تدريبها على نطاق واسع، مما يسمح لـ Sora بمحاكاة جوانب معينة من الأشخاص والحيوانات والبيئات في العالم الحقيقي. تظهر هذه الخصائص دون أي تحيز استقرائي صريح للأبعاد الثلاثية والكائنات وما إلى ذلك - وهي مجرد ظاهرة قياس النموذج.
لذلك، يطلق OpenAI على نموذج إنشاء الفيديو اسم "محاكيات العالم" (محاكيات العالم)، أو "النموذج العالمي" - والذي يمكن فهمه على أنه دع الآلات تتعلم نفس الشيء الطريقة التي يفهم بها البشر العالم.
علق جيم فان، عالم NVIDIA: "إذا كنت تعتقد أن OpenAI Sora هي لعبة إبداعية مثل DALL·E... فكر مرة أخرى. Sora هي لعبة فيزياء تعتمد على البيانات المحرك. إنها محاكاة للعديد من العوالم، سواء كانت حقيقية أو خيالية. يتعلم جهاز المحاكاة العرض المعقد والفيزياء "البديهية" والتفكير طويل الأمد ودلالات الدلالات مع بعض أساسيات الرياضيات لتقليل الضوضاء والتدرج."
اقترح كبير علماء الميتا يان ليكون مفهوم النموذج العالمي في يونيو 2023. في ديسمبر 2023، أعلنت Runway رسميًا عن نموذجها العالمي، مدعية أنها ستستخدم الذكاء الاصطناعي التوليدي لمحاكاة العالم بأكمله.
يمنح OpenAI Sora فقط القدرة على تصميم نموذج للعالم من خلال قانون القياس الذي كان على دراية به منذ فترة طويلة. يقول OpenAI: "تظهر نتائجنا أن توسيع النماذج التوليدية للفيديو يعد طريقًا واعدًا لبناء محاكيات عامة للعالم المادي."
على وجه التحديد، يتميز نموذج Sora العالمي بثلاث خصائص:
التناسق ثلاثي الأبعاد. يستطيع Sora إنشاء مقاطع فيديو باستخدام حركات الكاميرا الديناميكية. عندما تتحرك الكاميرا وتدور، يتحرك الأشخاص وعناصر المشهد في انسجام تام في مساحة ثلاثية الأبعاد.
عن بعدالملاءمةواستمرارية الكائن. من التحديات الكبيرة التي تواجه أنظمة إنشاء الفيديو الحفاظ على الاتساق الزمني عند أخذ عينات من مقاطع الفيديو الطويلة. وجدت OpenAI أن Sora غالبًا (وإن لم يكن دائمًا) فعال في نمذجة التبعيات قصيرة وطويلة المدى. على سبيل المثال، يمكن للنماذج الاحتفاظ بالأشخاص والحيوانات والأشياء حتى لو كانت محجوبة أو خارج الإطار. وبالمثل، يمكنه إنشاء لقطات متعددة لنفس الشخصية في عينة واحدة والحفاظ على مظهرها طوال الفيديو.
تفاعل مع العالم. يمكن لـ Sora أحيانًا محاكاة الإجراءات التي تؤثر على ظروف العالم بطرق بسيطة. على سبيل المثال، يمكن للرسام أن يترك ضربات فرشاة جديدة على لوحة قماشية تستمر بمرور الوقت.
تناظر العالم الرقمي. Sora قادر أيضًا على محاكاة العمليات اليدوية - أحد الأمثلة على ذلك هو ألعاب الفيديو. يمكن لـ Sora التحكم في اللاعبين في لعبة Minecraft في نفس الوقت من خلال الاستراتيجيات الأساسية مع تقديم العالم وديناميكياته بدقة عالية. يمكن إلغاء هذه القدرات عن طريق مطالبة Sora بعنوان يذكر Minecraft.
ومع ذلك، مثل جميع العارضات الكبيرة، فإن سورا ليست عارضة أزياء مثالية حتى الآن. تعترف OpenAI بأن Sora لديه العديد من القيود وأنه لا يمكنه محاكاة العديد من العمليات الفيزيائية الأساسية المتفاعلة بدقة، مثل كسر الزجاج. التفاعلات الأخرى (مثل تناول الطعام) لا تنتج دائمًا التغيير الصحيح في حالة الجسم.
3. هل قوة الحوسبة هي القدرة التنافسية الأساسية؟
لماذا يمكن لـ OpenAI الاعتماد على "Scaling Law" لتحقيق النجاح بشكل متكرر، ولكن الشركات الأخرى ليس لديه؟
قد نتمكن من العثور على العديد من الأسباب، مثل الإيمان بالذكاء الاصطناعي العام، والمثابرة في التكنولوجيا، وما إلى ذلك. لكن العامل العملي هو أن قانون القياس يتطلب إنفاقًا كبيرًا على الطاقة الحاسوبية لدعمه، وهو ما تجيده شركة OpenAI.
وبهذه الطريقة، تكون نقطة المنافسة لنموذج الفيديو مشابهة إلى حد ما لنموذج اللغة. الأول هو قدرة الفريق على تعديل المعلمة الهندسية، و والأخير هو قوة الحوسبة.
في التحليل النهائي، من الواضح أن هذه فرصة أخرى لـ Nvidia. مدفوعة بهذه الجولة من جنون الذكاء الاصطناعي، ارتفعت القيمة السوقية لشركة NVIDIA بشكل مطرد، متجاوزة Amazon وGoogle في ضربة واحدة.
سوف يستهلك تدريب نماذج الفيديو طاقة حاسوبية أكبر من نماذج اللغة. مع النقص العالمي في قوة الحوسبة، كيف يمكن لـ OpenAI حل مشكلة قوة الحوسبة؟ إذا تم دمجها مع شائعات التصنيع الأساسية السابقة حول OpenAI، يبدو أن كل شيء يقع في مكانه الصحيح.
منذ العام الماضي، قام الرئيس التنفيذي لشركة OpenAI سام ألتمان (Sam Altman) بجمع ما بين 8 مليارات إلى 100 مليون لمشروع تصنيع الرقائق الذي يحمل الاسم الرمزي "Tigris". بتمويل قدره 100 مليون دولار أمريكي، تأمل في إنتاج شريحة ذكاء اصطناعي مشابهة لرقاقة TPU من Google والتي يمكنها التنافس مع Nvidia لمساعدة OpenAI على تقليل تكاليف التشغيل والخدمة.
في يناير 2024، زار ألتمان أيضًا كوريا الجنوبية والتقى بمديرين تنفيذيين من شركتي Samsung Electronics وSK Hynix في كوريا الجنوبية سعيًا للتعاون في مجال الرقائق.
في الآونة الأخيرة، وفقًا لتقارير وسائل الإعلام الأجنبية، يقوم ألتمان بالترويج لمشروع يهدف إلى تحسين قدرات تصنيع الرقائق العالمية ويعمل مع حكومة الإمارات العربية المتحدة، بما في ذلك المفاوضات مع مستثمرين مختلفين. وقد وصلت الأموال التي جمعتها هذه الخطة إلى مبلغ مبالغ فيه يتراوح بين 5 تريليونات دولار و7 تريليونات دولار.
قال متحدث باسم OpenAI: "لقد أجرت OpenAI مناقشات مثمرة حول زيادة البنية التحتية العالمية وسلسلة التوريد للرقائق والطاقة ومراكز البيانات التي تعتبر بالغة الأهمية للذكاء الاصطناعي. والصناعات ذات الصلة أمر بالغ الأهمية. ونظرًا لأهمية الأولويات الوطنية، سنواصل تقديم إحاطة للحكومة الأمريكية ونتطلع إلى مشاركة المزيد من التفاصيل في وقت لاحق."
رد مؤسس Nvidia والرئيس التنفيذي Jensen Huang بسخرية بعض الشيء: "إذا كنت تعتقد أن أجهزة الكمبيوتر لا يمكنها التطور بشكل أسرع، فقد تتوصل إلى استنتاج مفاده أننا بحاجة إلى 14 كوكبًا و3 مجرات و4 شموس للقيام بذلك. كل هذا يوفر الوقود. ومع ذلك ، فإن بنية الكمبيوتر تتحسن باستمرار."
هل تطوير نماذج كبيرة هو الأسرع أم تقليل تكاليف الطاقة الحاسوبية؟ أسرع؟ هل سيكون الفائز في حرب الـ100 نموذج؟
في عام 2024، سيتم الكشف عن الإجابة تدريجيًا.
ص>