المصدر: قلب الآلة
في يوم العمل الثالث لتحديث OpenAI الذي يستمر لمدة 12 يومًا، صدر الإصدار الكبير أخيرًا!
تمامًا كما توقع الجميع في منطقة التعليقات قبل البث المباشر، ظهرت أخيرًا النسخة الرسمية للنموذج الكبير الذي تم إنشاؤه بالفيديو!
إجمالاً، لقد مر ما يقرب من 10 أشهر منذ إصدار Sora في 16 فبراير من هذا العام.
الآن، يمكن لمستخدمي الإنترنت أخيرًا تجربة قدرات Sora القوية في إنشاء الفيديو!
وفي الوقت نفسه، قامت OpenAI بتطوير إصدار جديد من Sora - Sora Turbo ، وهو أسرع من نموذج المعاينة لشهر فبراير وكان أسرع بكثير. سيكون الإصدار متاحًا كمنتج مستقل لمستخدمي ChatGPT Plus وPro اليوم.
وفقًا للبث المباشر اليوم، يمكن لمستخدمي Sora إنشاء دقة 1080 بكسل، وهي أطول 20 ثانيًا، شاشة عريضة، فيديو عمودي أو مربع. ويمكن للمستخدمين استخدام الموارد لتوسيع المحتوى وإعادة مزجه ودمجه أو إنشاء محتوى جديد تمامًا استنادًا إلى النص. قامت OpenAI بتطوير واجهة جديدة تسهل مطالبة Sora بالنص والصور والفيديو، بينما تسمح أدوات القصة المصورة للمستخدمين بتحديد المدخلات بدقة لكل إطار.
يمكننا أولاً إلقاء نظرة على بعض الأمثلة لمقاطع الفيديو التي تم إنشاؤها:
نصيحة: العدسة ضبابية والألوان متباينة، مما يجسد الشعور بجودة العدسة منخفضة الرؤية ، مما يوفر إحساسًا بالفورية والفوضى. يُظهر المشهد لقطات مهتزة من منظور بحار على متن سفينة قراصنة تعود إلى القرن السابع عشر. اهتز الأفق بعنف عندما اصطدمت الأمواج بالهيكل الخشبي، مما جعل من الصعب تمييز التفاصيل. فجأة، ظهر وحش بحري ضخم فجأة من البحر المضطرب. امتدت مخالبها الضخمة الزلقة بشكل خطير، وتلتف أطرافها اللزجة حول السفينة بقوة مرعبة. يتغير المنظر بشكل كبير عندما يتدافع البحارة في حالة من الذعر لمواجهة المخلوق البحري المرعب. كان الجو متوترا ويمكن سماع آهات السفن وهدير البحر وسط الفوضى.
نصيحة: مركز روكفلر مليء بالمستردين الذهبيين! في كل مكان تنظر إليه، هناك كلب جولدن ريتريفر. إنها أرض العجائب الشتوية في نيويورك ليلاً، تكتمل بشجرة عيد الميلاد العملاقة. يمكن رؤية سيارات الأجرة وعناصر نيويورك الأخرى في الخلفية.
قال سام التمان إن أكثر ما يثير اهتمامه هو سهولة الإبداع المشترك مع أشخاص آخرين، والشعور وكأنه أشياء جديدة مثيرة للاهتمام. يمكنك التفكير في Sora كنسخة فيديو لـGPT-1.
قال عالم أبحاث OpenAI نعوم براون إن Sora هو العرض الأكثر بديهية للقوة من الحجم.
فيما يتعلق بإصدار Sora، قال بعض مستخدمي الإنترنت أن هذا هو أفضل عيد ميلاد على الإطلاق هدية، قال أيضًا أن سورا سيغير قواعد اللعبة.
بواسطة نص أو صورة أو فيديو< قوي >أطلق العنان لخيالك
مع الإثارة، يريد قلب الآلة أيضًا تجربة Sora! ومع ذلك، هناك عدد كبير جدًا من مستخدمي الإنترنت الذين يرغبون في تجربتها، ولم يتمكنوا من تسجيل الدخول:
< /p>
عنوان التجربة: https://sora.com/onboarding
دعونا نعرض للقراء أولاً الإمكانيات التي تم إصدارها رسميًا لـ Sora.
استخدم Remix لاستبدال العناصر أو حذفها أو إعادة تصورها في الفيديو الخاص بك
افتح باب المكتبة
< / p>
استبدال الأبواب بأبواب فرنسية
تم استبدال المشهد خارج الباب بمنظر طبيعي قمري
إعادة القطع: ابحث عن الإطار الأفضل واعزله، ثم انطلق في كلا الاتجاهين قم بتمديدها لإكمال المشهد
القصة المصورة: تنظيم وتحرير تسلسلات فريدة من مقاطع الفيديو على المخطط الزمني
فيديو ما قبل 114 المشهد في الإطار هو "منظر طبيعي أحمر شاسع مع سفينة فضاء ترسو على مسافة."
p>
ثم يمكنك تغيير مشهد الإطارات 114 -324 من الفيديو إلى: "بالنظر من داخل المركبة الفضائية، يقف راعي بقر فضائي في وسط الشاشة."
أخيرًا يمكن وصف محتوى الفيديو بأنه "لقطة مقربة لعيني رائد فضاء مغطاة بقناع مصنوع من قماش محبوك 》
الحلقة: استخدم الحلقة. قص وإنشاء مقاطع فيديو متكررة بسلاسة
المزج: دمج مقطعي فيديو في مقطع واحد سلس
الإعدادات المسبقة للنمط: استخدم "الإعدادات المسبقة" لإنشاء ومشاركة الأنماط التي تلهم خيالك
يتطلب إنشاء المزيد من مقاطع الفيديو الرائعة التي أنشأها Sora خيال مستخدمي الإنترنت أيضًا.
بطاقة نظام الإصدار الرسمي لـ Sora
في فبراير من هذا العام، عندما تم إصدار Sora لأول مرة، أعلنت OpenAI عن التقنية تقرير من سورا.
تعتقد شركة OpenAI أن توسيع نماذج إنشاء الفيديو يعد طريقًا واعدًا لبناء أجهزة محاكاة للأغراض العامة للعالم المادي.
مع الإصدار الرسمي لـ Sora اليوم، أصدرت OpenAI أيضًا بطاقة نظام Sora ويمكن للمطورين المهتمين التعمق في التفاصيل الفنية.
العنوان: https://openai.com/index/sora-system-card/
Sora هو OpenAI نموذج لتوليد الفيديو مصمم لأخذ مدخلات النص والصور والفيديو وإنشاء مقاطع فيديو جديدة كمخرجات. يمكن للمستخدمين إنشاء مقاطع فيديو بتنسيقات مختلفة تصل إلى دقة 1080 بكسل (حتى 20 ثانية).
تم تصميم Sora استنادًا إلى نماذج DALL・E وGPT ويهدف إلى تزويد الأشخاص بأدوات للتعبير الإبداعي.
Sora هو نموذج نشر يقوم بإنشاء فيديو جديد بدءًا من فيديو أساسي يشبه الضوضاء الثابتة، ثم تحويله تدريجيًا عن طريق إزالة الضوضاء في خطوات متعددة. من خلال تغذية النموذج بتنبؤات الإطارات المتعددة في وقت واحد، يحل Sora المشكلة الصعبة المتمثلة في ضمان بقاء موضوع الإطار سليمًا حتى لو ترك مجال الرؤية مؤقتًا. على غرار نموذج GPT، يستخدم Sora بنية محولات لإطلاق العنان لأداء قابلية التوسع الفائق.
يستخدم Sora تقنية الاسترداد في DALL・E 3، والتي تتضمن إنشاء تسميات توضيحية وصفية للغاية لبيانات التدريب المرئي. ونتيجة لذلك، أصبح Sora قادرًا على اتباع تعليمات المستخدم النصية بدقة أكبر في الفيديو الذي تم إنشاؤه.
بالإضافة إلى القدرة على إنشاء مقاطع فيديو استنادًا إلى التعليمات النصية فقط، فإن النموذج قادر أيضًا على التقاط صور ثابتة موجودة وإنشاء مقاطع فيديو منها، مما يؤدي إلى تنشيط محتوى الصورة بدقة واهتمام بالتفاصيل. يمكن للنموذج أيضًا التقاط مقاطع فيديو موجودة وتوسيعها أو ملء الإطارات المفقودة. Sora هو الأساس للنماذج التي يمكنها فهم ومحاكاة العالم الحقيقي، وتعتقد OpenAI أن Sora سيكون علامة فارقة مهمة على الطريق إلى الذكاء الاصطناعي العام.
في جانب البيانات، كما وصفت OpenAI في تقريرها الفني لشهر فبراير، تستمد Sora الإلهام من نماذج اللغة الكبيرة التي تكتسب قدرات عامة من خلال التدريب على البيانات على نطاق الإنترنت. تمكنت LLM من إنشاء نموذج جديد، ويرجع الفضل في ذلك جزئيًا إلى الطرق المبتكرة لاستخدام الرموز المميزة. لقد وحد الباحثون بذكاء الطرائق المتعددة للنص، مثل الكود والرياضيات واللغات الطبيعية المختلفة.
في Sora، تدرس OpenAI كيف يمكن للنماذج التي تولد بيانات مرئية أن ترث فوائد هذا النهج. تحتوي نماذج اللغات الكبيرة على رموز نصية، بينما يحتوي Sora على تصحيحات مرئية. أثبتت الأبحاث السابقة أن التصحيحات تمثل تمثيلات فعالة لنماذج البيانات المرئية. اكتشفت OpenAI أن التصحيحات عبارة عن تمثيلات فعالة وقابلة للتطوير لنماذج التدريب التي تولد أنواعًا مختلفة من مقاطع الفيديو والصور.
على مستوى أعلى، تقوم OpenAI بتحويل مقاطع الفيديو إلى تصحيحات عن طريق ضغطها أولاً في مساحة كامنة ذات أبعاد أقل ثم تحليل التمثيل إلى تصحيحات زمانية مكانية.
تم تدريب Sora على مجموعة متنوعة من مجموعات البيانات، بما في ذلك البيانات المتاحة للعامة، وبيانات الملكية التي تم الحصول عليها من خلال الشركاء، ومجموعات البيانات المخصصة التي تم تطويرها داخليًا:
البيانات المتاحة للعامة. يتم جمع البيانات بشكل أساسي من مجموعات بيانات التعلم الآلي وبرامج زحف الويب المتوافقة مع معايير الصناعة.
بيانات خاصة من شركاء البيانات. تشكل OpenAI شراكة للوصول إلى البيانات غير العامة. على سبيل المثال، عقدت Pond5 شراكة مع Shutterstock لإنشاء صور تم إنشاؤها بواسطة الذكاء الاصطناعي وتقديمها. تقوم OpenAI أيضًا بإنشاء مجموعات بيانات مصممة خصيصًا لتلبية احتياجاتها.
البيانات الاصطناعية. تعليقات من مدربي الذكاء الاصطناعي وأعضاء الفريق الأحمر والموظفين.
لمزيد من التفاصيل، يمكن للقراء الاطلاع على مقدمة بطاقة النظام.
فوائد السعر
بالطبع، مع الإصدار الرسمي لـ Sora، أعلنت OpenAI أيضًا عن سعر الاستخدام. يبدو أنها ليست رخيصة:
20 دولارًا شهريًا لمستخدمي ChatGPT Plus فيديو تتضمن مزايا الإنشاء التي يمكن الاستمتاع بها ما يلي:
مقابل 200 دولار شهريًا، يمكن لمستخدمي ChatGPT Pro الاستمتاع بالفيديو تشمل مزايا الإنشاء ما يلي:
ما يصل إلى 500 مقطع فيديو ذي أولوية (10000 نقطة)
-
غير محدود استرخاء الفيديو
دقة تصل إلى 1080p والمدة 20 ثانية ويمكن إنشاء 5 فيديوهات في وقت واحد
تحميل بدون علامة مائية
p>
بعد كل شيء، أنا لقد كنت أتطلع إليها لفترة طويلة. هل ستتعجل؟