DeepSeek يسرع حقًا من دائرة النموذج الكبيرة——
في الوقت الحالي، أصدرت OpenAI بشكل عاجل أحدث نموذج استدلالي ، سلسلة o3-mini.
يوجد ثلاثة إصدارات في المجموع: منخفضة ومتوسطة وعالية.
O3-mini وo3-mini-high متصلان بالإنترنت بالفعل:
وفقًا للبيان الرسمي، يهدف طراز سلسلة o3 إلى تعزيز التفكير منخفض التكلفة حدودها. يمكن لمستخدمي ChatGPT Plus وTeam وPro الوصول إلى OpenAI o3-mini بدءًا من اليوم، وسيتوفر الوصول على مستوى المؤسسة بعد أسبوع.
يمكن للمستخدمين المجانيين أيضًا استخدام o3-mini لتجربة البحث عن طريق تحديد "بحث + سبب".
حتى في حدث "اسأل وأجب" اللاحق على موقع Reddit، نادرًا ما عكس الرئيس التنفيذي ألتمان علنًا:
فيما يتعلق بمسألة نماذج الذكاء الاصطناعي المرجحة مفتوحة المصدر، (أعتقد شخصيًا) أننا على الجانب الخطأ من التاريخ.
في الوقت نفسه، وفي غضون ساعات قليلة فقط، بدأ مستخدمو الإنترنت في اختبار...
"text -align: left;">تم تحسينه من أجل التفكير في العلوم والتكنولوجيا والهندسة والرياضيات، لكن السعر لا يزال مرتفعًا للغاية مقارنة بـ DeepSeek-R1
دعنا نلقي نظرة على التقرير الفني أولا ماذا.
في ذلك الوقت، أعلن الرئيس التنفيذي لشركة Ultraman أن النسخة الرسمية سيتم إصدارها في يناير من هذا العام. في اللحظة الأخيرة من DDL، تم إطلاق النسخة الرسمية من o3-mini أخيرًا.
بشكل عام، على غرار الجيل السابق من o1-mini، تم تحسينه أيضًا لمجالات STEM (العلوم والتكنولوجيا والهندسة والرياضيات)، مما يواصل سلسلة mini >أسلوب صغير ولكن جميل.
فقط o3-mini (متوسط) لا يعمل بنفس كفاءة سلسلة o1 في الترميز الرياضي فحسب، بل يستجيب أيضًا بشكل أسرع.
أظهر تقييم الخبراء البشريين أنه في معظم الحالات، أنتجت o3-mini إجابات أكثر دقة ووضوحًا من o1-mini، محققة 56%، وخفض معدل الأخطاء الرئيسية عند التعامل مع مشاكل العالم الحقيقي المعقدة بنسبة 39%.
من حيث القدرة الرياضية، وصل مستوى O3-mini (منخفض) مع كثافة التفكير المنخفضة إلى مستوى مماثل لمستوى O1-mini ;متوسطة تحت كثافة الاستدلال المنخفضة، تكون قدرتها قابلة للمقارنة بالإصدار الكامل من o1؛ وبمجرد زيادة كثافة الاستدلال إلى الحد الأقصى (عالية)، فإن أداءها يتجاوز جميع النماذج في سلسلة o1 بشكل مباشر.
حتى أن المسؤول أشار بشكل خاص إلى أنه إذا تم استخدامه مع أدوات Python، فإن o3-mini (عالي) يحل أكثر من 32% من المشكلات في المحاولة الأولى > الأسئلة، بما في ذلك أكثر من 28% من أسئلة المستوى T3.
من حيث القدرة العلمية، في مسائل الفيزياء والكيمياء والأحياء على مستوى الدكتوراه، فإن o3-mini ذو كثافة التفكير المنخفضة قد فتح بالفعل مستوى مع o1-mini.
ويجب ملاحظة أنه في حين حقق o3-mini الصدارة المذكورة أعلاه، فإنه أيضًا أسرع في الاستجابة، بمتوسط وقت استجابة يبلغ 7.7 ثانية، بزيادة 24% عن 10.16 ثانية لـ o1-mini.
بالمناسبة، أعلنت OpenAI عن الفريق الذي يقف وراء o3-mini كما هو معتاد. يمكن ملاحظة أن الفريق هذه المرة يقوده ألترامان نفسه، ومديري مشروع البحث هما كاربوس تشانغ وكريستين ينغ (هناك أيضًا العديد من الأصدقاء القدامى الذين نعرفهم في القائمة، مثل رين هونغ يو، وتشاو شينغجيا، وما إلى ذلك). .).
المستخدمون على الإنترنت يختبرونه بشكل محموم
كما ذكرنا للتو، فقد بدأ المستخدمون على الإنترنت بالفعل في اختباره بشكل محموم. ومع ذلك، بناءً على المراجعات، فإن الناس لديهم آراء متباينة حول أداء o3-mini.
على سبيل المثال، في مهمة تنفيذ "كرة ترتد داخل حجم رباعي الأبعاد" في Python، يعتقد بعض الأشخاص أن o3-mini هو أفضل برنامج LLM:< /p>< التأثير هو مثل هذا:
بما في ذلك المزيد للمهام الأكثر تعقيدًا ، يمكن لـ o3-mini الآن أيضًا إنشاء 100 كرة صفراء مرتدة في كرة: لعبة ثعبانين يتنافسان مع بعضهما البعض:
بالإضافة إلى DeepSeek، يستخدم مستخدمو الإنترنت أيضًا مقارنة تأثيرات o1 و o3-mini، مثل إنشاء مدينة عائمة ضخمة ومذهلة وملحمية.
طرح أحد مستخدمي الإنترنت سؤالاً محيرًا قد تخطئ فيه جميع النماذج الكبيرة تقريبًا، لكن ما صدمه هو أن o3-mini أجابت عليه بشكل صحيح:
ومع ذلك، فإن ليكس فريدمان، وهو مدون بودكاست معروف، هو :يعتبر OpenAI o3-mini نموذجًا جيدًا، ولكن DeepSeek R1 يتمتع بأداء مماثل وسعر أقل ويكشف عن عملية التفكير الخاصة به.
سوف تأتي نماذج أفضل (لا أستطيع الانتظار حتى ظهور o3-pro)، ولكن "لحظة DeepSeek" حقيقية. أعتقد أنه بعد خمس سنوات من الآن سيتم تذكره باعتباره نقطة تحول في تاريخ التكنولوجيا.
شيء آخر
بعد ساعات قليلة من إطلاق o3-mini على الإنترنت، شارك Ultraman نفسه وفريقه في نشاط "اسأل وأجب" على Reddit .
بالنظر إلى أن برنامج DeepSeek مفتوح المصدر قد أثار مؤخرًا دائرة الذكاء الاصطناعي، فإن ألتمان نادرًا ما عكس ذلك علنًا:
فيما يتعلق بقضية نماذج الذكاء الاصطناعي المرجحة مفتوحة المصدر، (شخصيًا) نحن على الجانب الخطأ من التاريخ.
إن DeepSeek ممتاز بالفعل، وسوف نستمر في تطوير نماذج أفضل، ولكن تقدمنا سيكون أصغر.
على سبيل المثال، نموذج الكلام المتقدم على وشك التحديث، وسوف تطلق عليه OpenAI اسم GPT-5 مباشرةً بدلاً من GPT-5o، ولكن لا يوجد أي شيء محدد. الجدول الزمني حتى الآن.
وأخيرًا، تم ذكر الإصدار الكامل من o3 أيضًا، ولكن يبدو أنه بعيد جدًا...