المصدر: Geek Park
كما هو متوقع، في اليوم الثالث من البث المباشر لمدة 12 يومًا، فيديو OpenAI Vincent تم إصدار منتج Sora رسميًا.
في الساعة الثانية صباحًا يوم 10 ديسمبر بتوقيت بكين، قام سام ألتمان والعديد من موظفي OpenAI الداخليين بعرض وظائف Sora وحالات الاستخدام العملي من خلال البث المباشر. بعد إطلاق عينات الفيديو في فبراير من هذا العام، أثار سورا جنونًا في مجتمع الذكاء الاصطناعي العالمي. ومنذ ذلك الحين، أطلقت شركات الذكاء الاصطناعي المحلية والأجنبية منتجات فيديو فنسنت. وباعتباره رائد هذا المسار، كشف سورا أخيراً عن سره اليوم.
بشكل عام، تُظهر سلسلة وظائف المنتج التي تعرضها Sora أنها تتجاوز منتجات فيديو Wensheng الحالية من حيث جودة إنشاء الفيديو وأصالة الوظائف وتعقيد التكنولوجيا.
بالإضافة إلى الوظائف الأساسية لمقاطع الفيديو الخاصة بإنشاء النصوص والصور، فإنه يضيف القصص المصورة (أي ما يعادل إنشاء قصصك الخاصة من خلال القصص المصورة)، واستخدام النص لضبط الفيديو الأصلي، والتحرير من مقاطع الفيديو لمشاهد مختلفة، مع وظائف مثل الدمج (أي ما يعادل إضافة تأثيرات خاصة مباشرة إلى الفيديو)، يبدو أن تصميم وظيفة المنتج بأكمله يجعل الفيديو أقرب إلى التعبير عن الذات لمنشئ المحتوى ويساعده على إكمال قصة مصورة مثالية.
في وقت لاحق من يوم 9 ديسمبر، بالتوقيت المحلي، يمكن للمستخدمين في الولايات المتحدة ومعظم البلدان الأخرى زيارة الموقع الرسمي لتجربة Sora. يتم تضمينه في اشتراكات العضوية في ChatGPT Plus وChatGPT Pro دون أي تكلفة إضافية. من بينها، يمكن لـ Plus إنشاء ما يصل إلى 50 مقطع فيديو متميز بدقة فيديو تصل إلى 720 بكسل ومدة 5 ثوانٍ، بينما يمكن لـ Pro إنشاء ما يصل إلى 500 مقطع فيديو متميز بدقة تصل إلى 1080 بكسل ومدة 20 ثانية، و يمكن أيضًا إزالة العلامات المائية.
قدم سام ألتمان Sora لثلاثة أسباب رئيسية:
أولاً، من منظور الأدوات، تحب OpenAI إنشاء أدوات للأشخاص المبدعين، وهو أمر مفيد ثقافة الشركة مهمة جدًا؛
ثانيًا، من منظور تفاعل المستخدم، لا يمكن لأنظمة الذكاء الاصطناعي التفاعل من خلال النص فحسب، بل يجب أيضًا أن تفهم وتنتج مقاطع فيديو لمساعدة البشر على استخدام الذكاء الاصطناعي. وهذا مشابه لما قالته شركات النماذج المحلية الكبرى، "في كل مرة يقوم النموذج بتوسيع إحدى الطرائق، سيزداد معدل انتشار المستخدم."
أما الثالث فهو من منظور تقني، وهو أمر بالغ الأهمية لـ AGI الخاص بـ OpenAI. خارطة الطريق والأهم من ذلك، أن الذكاء الاصطناعي يجب أن يتعلم المزيد عن قوانين العالم، وهذا هو ما يسمى بـ "النموذج العالمي" الذي يفهم قوانين الفيزياء.
لا يجب علينا استخدام التكنولوجيا لتغيير العالم فحسب، بل يجب علينا أيضًا استخدام المنتجات لتعزيز الإبداع البشري. وهذا ما يفعله سورا.
01 بالإضافة إلى إنشاء مقاطع فيديو، يمكنه أيضًا وضع القصة المصورة وإضافة تفاصيل خاصة التأثيرات، وإنشاء غير محدود
أبسط ما في Sora هو فيديو Wensheng ووظائف فيديو Tusheng.
افتح الواجهة الرئيسية، حيث يمكن للمستخدمين عرض وإدارة كل المحتوى الناتج عن الفيديو، والتبديل بين عرض الشبكة وعرض القائمة، وإنشاء المجلدات والمفضلات، وعرض الإشارات المرجعية، وما إلى ذلك. يقول الباحثون إن تصميم الواجهة الرئيسي هذا يهدف إلى مساعدة المستخدمين بشكل أفضل في إنشاء القصص.
في الجزء السفلي الأوسط من الصفحة الرئيسية، يوجد فيديو Sora's Wensheng ووظائف فيديو Tusheng.
على سبيل المثال، قدم سام ألتمان لأول مرة إدخالاً نصيًا، "تم تصوير حيوانات الماموث الصوفية التي تمشي في الصحراء، والتي تم تصويرها بعدسة واسعة الزاوية". بعد ذلك، تحتاج إلى تحديد نسبة العرض إلى الارتفاع للفيديو، والدقة، والمدة (5-20 ثانية)، وعدد مقاطع الفيديو التي تم إنشاؤها أخيرًا (يمكن إنشاء ما يصل إلى أربعة أجزاء للاختيار) للحصول على الفيديو الذي تم إنشاؤه.
في النهاية، يمكنك أن ترى أن تأثير الفيديو الذي تم إنشاؤه واقعي للغاية ومحكم، ويتبع بشكل أساسي تعليمات الإدخال. ربما لا يتفاجأ الناس بالأداء الممتاز لتأثيرات إنشاء الفيديو الخاصة بسورا.
بعد إدخال النص "تم تصوير حيوانات الماموث الصوفية التي تمشي في الصحراء بعدسة واسعة الزاوية"، قام سورا بإنشاء أربعة مقاطع فيديو | مصدر الصورة: OpenAI
ولكن هذه المرة، أصدر Sora أيضًا سلسلة من ميزات المنتج الفريدة والمتقدمة. وفقًا لـ Geek Park، تركز هذه الوظائف بشكل أساسي على التعبير الأكثر دقة للفيديو، أي من خلال القصة المصورة وإضافة المؤثرات الخاصة وما إلى ذلك، مما يسمح للأشخاص بإنشاء قصة يريدونها من خلال الفيديو.
الأول هو القصة المصورة، والتي يسميها الباحثون "أداة إبداعية جديدة".
من منظور تصميم المنتج، فإن ذلك يعادل تقطيع القصة (الفيديو) إلى عدة بطاقات قصصية مختلفة (إطارات الفيديو) وفقًا للمخطط الزمني. يحتاج المستخدمون فقط إلى تصميم وضبط كل بطاقة قصة (إطار فيديو)، وسيقوم Sora بإكمالها تلقائيًا في قصة سلسة (فيديو) -يشبه هذا إلى حد كبير القصص المصورة ومخطوطات الرسوم المتحركة في الفيلم قصص مصورة جيدة، ويمكن تصوير فيلم، ويمكن لرسام الكاريكاتير كتابة مخطوطة، ويمكن تصميم الرسوم المتحركة.
على سبيل المثال، القصة المصورة الأولى التي تصورها الباحثون هي، "الكركي الأبيض الجميل يقف في الجدول، بذيل أصفر." القصة المصورة الثانية هي، "الكركي سوف هو وضع رأسه في الماء واصطاد سمكة." ما فعله هو إنشاء بطاقتي القصة (إطارات الفيديو) على التوالي، وتعيين فاصل زمني قدره خمس ثوانٍ تقريبًا بينهما. هذه الفجوة مهمة بالنسبة لسورا، حيث تمنحه مساحة للربط بين مجموعتي الحركات.
وأخيرًا، حصل على لقطة فيديو كاملة، "وقفت الرافعة البيضاء الجميلة في الجدول. وكان لها ذيل أصفر. ثم وضعت الرافعة رأسها في الماء واصطدت سمكة." >
باثنين بطاقات القصة (إطارات الفيديو)، يقوم سورا بإنشاء قصة كاملة (فيديو) | مصدر الصورة: OpenAI
الأمر الأكثر إثارة للدهشة هو أن العناصر الإبداعية في لوحة القصة هذه ليست مجرد بطاقات قصة، ولكنها أيضًا صور ومقاطع فيديو مباشرة. بمعنى آخر، يمكنك سحب أي صورة أو مقطع فيديو إلى لوحة القصة، ودمجها مع بطاقة القصة، وإنشاءها.
خذ الفيديو كمثال. قام الباحثون بقص مقطع الفيديو أعلاه لـ Bai He واستوردوه إلى لوحة العمل وقاموا بقصه، مما أدى إلى استمرار الإنشاء في الجزء الأمامي والخلفي من الفيديو يعني أنه يمكن أن يكون هناك بداية ونهاية جديدة.
الخيال الذي يجلبه هذا هو أنه يمكن إنشاء القصص المصورة بشكل لا نهائي. بمعنى آخر، يمكن إنشاء مقطع فيديو مدته 20 ثانية بواسطة Sora وقصه وإنشائه بشكل مستمر... حتى يتم تحقيق اللقطة المثالية بالكامل. تشبه هذه العملية المحرر أو المخرج الذي يقطع الفيلم ببطء في ذهنه من خلال إنشاء وتحرير تصميم القصة المصورة ومواد العدسات بشكل مستمر.
خلافًا لما يحدث في العالم الحقيقي، فإن المواد التي تقدمها Sora غير محدودة. على عكس منتجات فيديو فنسنت الأخرى، يمكن تعديل ومعالجة مقاطع فيديو سورا. وهذا يجعل مقاطع الفيديو التي ينشئها أكثر اتساقًا مع خيال المستخدم وإبداعه.
يبدو أن هذه هي الفكرة الأساسية لمنتج Sora: جعل الفيديو الذي تم إنشاؤه متوافقًا مع الإبداع الذي يريده المستخدم قدر الإمكان.
وبهذه الطريقة، يمكنك فهم الوظائف الأخرى لـ Sora بشكل أفضل، مثل أنه يمكنك تعديل الفيديو مباشرة من خلال النص، ويمكنك دمج مقطعي فيديو مختلفين بسلاسة، ويمكنك تغيير نمط الفيديو، وما إلى ذلك. وهذا يعادل إضافة نص مباشرة إلى الفيديو "المؤثرات الخاصة". قد تحتاج منتجات فيديو Wensheng العامة إلى ضبط المطالبة (الكلمة السريعة) باستمرار وإعادة إنشاء الفيديو باستمرار.
من خلال ضبط النص، يمكن للمستخدمين ضبط الفيديو مباشرة | مصدر الصورة: OpenAI
يمكن لسورا دمج مقطعي فيديو من جزأين في مقطع واحد سلس |. مصدر الصورة: OpenAI
بشكل عام، سورا بالإضافة إلى أدائه الممتاز بشكل غير متوقع في إنشاء مقاطع الفيديو، فإنه يوفر أيضًا المزيد من وظائف منتج إنشاء الفيديو الفريدة، والتي تعادل إضافة القصص المصورة والتحرير والمؤثرات الخاصة إلى مقاطع الفيديو. وهذا يعني أن كل شخص لديه الفرصة لخلق التعبير الذي يريده حقًا، وهو أقرب إلى أن يصبح مخرجًا.
"إذا ذهبت إلى Sora مع توقع أنه يمكنك فقط النقر فوق زر وإنشاء فيلم، فأعتقد أن توقعاتك خاطئة"، كما قال باحثو OpenAI.
وقال إن Sora هي أداة تتيح للأشخاص التواجد في أماكن متعددة في نفس الوقت، وتجربة أفكار متعددة، وتجربة أشياء كانت مستحيلة تمامًا من قبل. "في الواقع، نعتقد أن هذه أداة رائعة ملحق خاص للمبدعين." 》
02 خدماتلا يتم شحن سيارة فولكس فاجن بشكل منفصل، ولكنها لا تزال تعتمد على قدرات النموذج الأساسي
باعتباره مؤسس مسار فيديو فنسنت، فإن إطلاق Sora هو بمثابة أحدث . وفي هذا الصدد، ذكر فريق بحث OpenAI أنه من أجل نشر Sora على نطاق واسع، من الضروري إيجاد طرق لجعل النموذج أسرع وأرخص. ولتحقيق هذه الغاية، قام فريق البحث بالكثير من العمل.
خلال البث المباشر، أعلنت شركة OpenAI عن Sora Turbo، وهو إصدار متسارع جديد ومتطور من نموذج Sora الأصلي. فهو يحتوي على جميع الميزات التي تحدثت عنها OpenAI في تقريرها "World Simulation Technology" في وقت سابق من هذا العام، بالإضافة إلى القدرة على إنشاء فيديو من النصوص والصور المتحركة ومقاطع الفيديو الهجينة. هذا هو الأساس الفني وراء ميزة منتج Sora.
يبدو أن الاستدلال بالفيديو أكثر تكلفة من النص، لكن هذه المرة لم تتقاضى OpenAI رسومًا من Sora وحده. Sora متاح بعضوية ChatGPT Plus بقيمة 20 دولارًا شهريًا، وعضوية ChatGPT Pro بقيمة 200 دولار شهريًا.
تتضمن مزايا الأول ما يصل إلى 50 مقطع فيديو متميزًا بدقة تصل إلى 720 بكسل ومدة 5 ثوانٍ، وتشمل مزايا الأخير ما يصل إلى 500 مقطع فيديو متميزًا ومقاطع فيديو عادية غير محدودة بدقة تصل دقته إلى 1080 بكسل ويستغرق التنزيل 20 ثانية بدون علامة مائية.
حصة استخدام Sora من قبل أعضاء مختلفين|مصدر الصورة: OpenAI
إن أهمية Sora بالنسبة لـ OpenAI تتجاوز ذلك. وجد الفريق أن نماذج الفيديو تظهر العديد من القدرات الجديدة المثيرة للاهتمام عند تدريبها على نطاق واسع، مما يسمح لسورا بمحاكاة جوانب معينة من الأشخاص والحيوانات والبيئات في العالم الحقيقي. "تظهر نتائجنا أن توسيع نماذج توليد الفيديو يعد طريقًا واعدًا لبناء جهاز محاكاة عالمي للعالم المادي."
ولهذا السبب يمكن للجمهور استخدام Sora في أقرب وقت ممكن و يعد استخدام البيانات لفهم العالم بشكل أفضل أمرًا مهمًا للغاية بالنسبة لحلم AGI النهائي لشركة OpenAI.
على طريق تكرار التكنولوجيا، فإنها تعمل أيضًا على تعزيز الإبداع البشري.
"سوف يرتكب هذا الإصدار من Sora أخطاء، فهو ليس مثاليًا، لكنه وصل إلى النقطة التي نعتقد أنها ستكون مفيدة جدًا لتعزيز الإبداع البشري. لا يمكننا الانتظار لنرى ما سيفعله العالم افعل بها ما يجب فعله." قال OpenAI، الذي أنشأه.