المؤلف: جوزي؛ المصدر: NewGeek
قبل يومين، أجرت وسائل إعلام أجنبية مقابلة حصرية مع فريق Sora الأساسي. وبعد مشاهدة الفيديو الأصلي، لم يُقال شيء تقريبًا، بدا المشهد وكأنه خطاب ألقاه رئيس قسم اللجنة الوطنية للتنمية والإصلاح.
على حد تعبير مستخدمي الإنترنت، يبدو الأمر كما لو أن هناك محاميًا يوجه مسدسه نحو هؤلاء الأشخاص خارج الكاميرا.
تم إصدار Sora لمدة شهر تقريبًا. عندما تم إصداره لأول مرة، كان Sora صادمًا وجلب للناس خيالًا غير محدود. حتى أن الكثير من الناس قالوا إن AGI قادم.
ومع ذلك، لم يستخدم Sora سوى عدد قليل من الأشخاص حتى الآن، وبغض النظر عن مدى جودة المنتج، سيفقد الناس الاهتمام بمرور الوقت.
فقط عندما كان الناس يقلبون Sora رأسًا على عقب، تم الانتهاء من كل ما يجب التحدث عنه، وبدا أنهم ماتوا حقًا، أرسلت OpenAI عددًا قليلاً من الأشخاص للخارج من اجل مقابلة.
في المقابلة الحصرية التي مدتها 16 دقيقة، تحدث أعضاء فريق Sora الأساسي عن الكثير من المحتوى، لكنه كان كله محتوى معروفًا وليس جديدًا. يبدو أن المعلومات لا تشبه الوثائق الفنية لسورا قوي>.
دعونا نرى كيف يمارس الأجانب رياضة التاي تشي.
الأعضاء الأساسيون الثلاثة في Sora الذين تمت مقابلتهم في هذه المقابلة هم بيل بيبلز وتيم بروكس وأديتيا راميش.
أولاً، السؤال الذي يشغل بال الجميع هو، متى يمكننا استخدام سورا؟
"لا تقلق، لن يتمكن الأشخاص العاديون من استخدامه على المدى القصير ."
قال أعضاء Sora إن Sora ليس مفتوحًا بعد للجمهور ولا يوجد جدول زمني محدد. OpenAI في مرحلة جمع تعليقات المستخدمين وتأمل في مواصلة الدردشة حول كيفية استخدام الأشخاص لـ Sora وما هي الأعمال الأمنية التي يجب القيام بها.
بما أنه لا يمكن استخدامه، فلنستكشف كيفية تنفيذ Sora.
قال فريق Sora: Sora هو نموذج لتوليد الفيديو يعمل من خلال تحليل كمية كبيرة من بيانات الفيديو وتعلم كيفية إنشاء مقاطع فيديو. تجمع طريقة العمل المحددة بين تقنيات نماذج الانتشار (مثل DALL-E) ونماذج اللغة واسعة النطاق (مثل سلسلة GPT). من الناحية المعمارية، يتشابه Sora بين الاثنين، وطريقة التدريب مشابهة لـ DALL-E، لكنها أشبه بـ GPT في البنية.
لقد تم تحليل حقيقة أن البنية تشبه GPT من قبل العديد من الأشخاص عندما ظهر Sora لأول مرة، وهذه أيضًا ميزة فنية رئيسية لـ Sora.
والتالي، من المثير للاهتمام أيضًا، من أين تأتي بيانات تدريب سورا؟
في الفيديو الرسمي لجيل سورا، سواء كانت سفينة قراصنة في فنجان قهوة أو امرأة تسير في شوارع طوكيو، يقال أن سورا يبدو لفهم العديد من القوانين الفيزيائية في العالم.
كانت هناك العديد من المناقشات الشعبية من قبل، ومن المحتمل جدًا أن يكون Sora قد أضاف نصًا ومقاطع فيديو تم إنشاؤها باستخدام UE5 كبيانات تركيبية في مجموعة البيانات.
في مواجهة مثل هذا السؤال، لم يستجب عضو Sora تيم بروكس بشكل واضح. لقد مارس رياضة التاي تشي وأعرب عن أنه من غير المناسب الخوض في الكثير من التفاصيل. ومع ذلك، كشف أنه استخدم بشكل عام البيانات العامة والبيانات التي تستخدمها OpenAI مصرح له بالاستخدام والمشاركة في "الابتكار التكنولوجي".
في الماضي، سواء كان نموذجًا لإنشاء صورة أو فيديو، كان يتم تدريبه عادةً بحجم ثابت جدًا، مثل فيديو بدقة واحدة فقط.
أثناء تدريب سورا، قاموا بتقسيم الصور ومقاطع الفيديو المختلفة، بغض النظر عن نسبة العرض إلى الارتفاع أو الطول أو الوضوح العالي أو الوضوح المنخفض، إلى جزء صغير منها. يمكن للباحثين تدريب النموذج للتعرف على أعداد مختلفة من التصحيحات الصغيرة بناءً على حجم الفيديو المدخل، مما يسمح أيضًا لـ Sora بالتعلم من البيانات المختلفة بشكل أكثر مرونة وإنشاء محتوى بدقة وأحجام مختلفة.
تم ذكر هذه التقنية أيضًا في وثائق Sora الفنية، وهو ما يسمى بالتصحيح.
عند تصميم نموذج لغة كبير، يتم تقسيم النص إلى رموز مميزة كأصغر وحدة، ويكون الرمز المميز في نموذج الفيديو الكبير بمثابة تصحيح.
لم يتم إنشاء هذه التكنولوجيا بواسطة OpenAI. عندما أعلنت OpenAI عن استخدامها لهذه التكنولوجيا، أثار ذلك نقاشًا: لماذا يمكن لـ OpenAI إنشاء منتجات ذكاء اصطناعي جيدة باستخدام تكنولوجيا أشخاص آخرين.
سأل المضيف مرة أخرى: ما الذي تعتقد أن سورا يجيده؟ ما هي المجالات التي لا تزال مفقودة؟ على سبيل المثال، رأيت مقطع فيديو تحتوي فيه اليد بالفعل على ستة أصابع.
أشاد فريق Sora في البداية ثم نفى أن Sora جيد في مقاطع الفيديو الواقعية ويمكنه إنشاء مقاطع فيديو مدتها دقيقة واحدة، وهو أمر قوي للغاية. ولكن لا تزال هناك بعض المشاكل، مثل تفاصيل اليد (كابوس الذكاء الاصطناعي كله)، ومسارات الكاميرا، والتغيرات في الظواهر الفيزيائية، وما إلى ذلك.
بالإضافة إلى ذلك، قدم فريق Sora أيضًا بعض الميزات الرائعة الأخرى، مثل إنشاء مقاطع فيديو من خلال تركيب الفيديو بالإضافة إلى المطالبات. يتيح ذلك انتقالات سلسة بين مقاطع الفيديو المكونة من سمات ومشاهد مختلفة تمامًا.
على تطبيق Tiktok التابع لـ OpenAI، يوجد مقطع فيديو لطائرة بدون طيار تتحول إلى فراشة تحلق في الشعاب المرجانية التي حولها الكولوسيوم.
إنه مختلف تمامًا عن نموذج توليد الفيديو الأصلي من حيث التكنولوجيا والخبرة. حتى أن أديتيا راميش قال إن ما يفعلونه هو تقليد الطبيعة أولاً ثم تجاوزها!
حتى الآن، استخدمت مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي من OpenAI على Tiktok الدبلجة، بدلاً من توليد الأصوات بسلاسة بواسطة الذكاء الاصطناعي. قال فريق Sora إن صوت الذكاء الاصطناعي ليس شيئًا يفكرون فيه في الوقت الحالي، ولا تزال الأولوية القصوى هي إنشاء فيديو لتحقيق وقت أطول وجودة صورة وتكرار أفضل.
لكنني لا أعرف ما إذا كانت إضافة الصوت إلى Sora ستكون قريبة مع إصدار وظيفة Pika Sound Effects.
عندما سأله المضيف عن اتجاه التطوير التالي لسورا. قال عضو Sora، تيم بروكس، إن Sora لا يزال أمامه جانبان من العمل لإكمالهما قبل إصداره فعليًا:
الأول هو الحصول على تعليقات من المزيد من المستخدمين وفهم كيفية القيام بذلك. سورا يعمل على جلب القيمة للناس. على سبيل المثال، يأمل بعض المستخدمين في الحصول على تحكم أكثر تفصيلاً ومباشرًا في مقاطع الفيديو التي يتم إنشاؤها، وليس فقط المطالبات.
من ناحية أخرى، يحتاج العمل الأمني لـ Sora إلى التعزيز، وسوف تأخذ OpenAI في الاعتبار بشكل كامل التأثيرات المختلفة المحتملة. حاليًا، يتم تدريب مصنف التتبع المطبق على مقاطع الفيديو لتحديد ما إذا كان الفيديو تم إنشاؤه بواسطة الذكاء الاصطناعي، وتتم إضافة علامة مائية إلى كل فيديو تم إنشاؤه بواسطة Sora.
بالإضافة إلى ذلك، قال فريق Sora إن مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي توفر أيضًا العديد من الفرص. ويمكن أن تقلل بشكل كبير التكلفة بدءًا من الإبداع وحتى الفيلم النهائي. ومن الممكن تمامًا لشخص واحد أن يصنع فيلمًا.
ما يثير اهتمامهم أكثر هو أنه مع ظهور أدوات الذكاء الاصطناعي الجديدة، سيبتكر شخص ما أشياء جديدة تمامًا ويستمر في دفع حدود الإبداع، الأمر الذي سيكون المستحيل يصبح ممكنا.
لكن توقف، هذا مجرد خيال جميل للعلماء. بعد كل شيء، سيستغرق الأمر وقتًا طويلاً حتى يستخدم الأشخاص العاديون سورا فعليًا.
علاوة على ذلك، كشف أعضاء سورا. لن يلعب الذكاء الاصطناعي دورًا في إنشاء الفيديو فقط من خلال التعلم من بيانات الفيديو. نماذج مثل GPT، رغم ذكائها، تفتقد بعض المعلومات إذا لم تتمكن من "رؤية" العالم مثلنا. نماذج مثل سورا تحل هذه المشكلة.
هل هذا تأكيد على أن الذكاء الاصطناعي العام قادم؟
أخيرًا، طرح المضيف سؤالاً مثيرًا للاهتمام، كم من الوقت يستغرق سورا لإنشاء مقطع فيديو؟
"يعتمد على الموقف، ولكن يمكنك المغادرة، والذهاب لتناول القهوة، والعودة وما زال الأمر قيد المعالجة، وهو وقت طويل على أي حال."< /p >
ما ورد أعلاه هو محتوى المقابلة التي أجراها فريق Sora. ملخص مختصر هو:Sora قوي جدًا ويمكنه رؤية العالم. ولهذا السبب، نحن لا يمكن أن يجعل الناس العاديين يستخدمونه قريبًا، فلا يزال هناك الكثير من أعمال السلامة التي يتعين القيام بها.
أم، يمكنك أن تعض الولاعة إذا لم يكن لديك وظيفة، فلا داعي للإجبار على ذلك. ص>