المصدر: AI Faner
أصدرت شركة xAI اليوم الجيل الجديد من نموذج اللغة الكبيرة Grok-3 ونسخته المبسطة Grok-3 mini. تظهر أحدث اختبارات المعايرة أن Grok-3 يتمتع بمزايا كبيرة عند المقارنة المباشرة مع DeepSeek.
في اختبار القدرة على الرياضيات (AIME'24)، حصل Grok-3 على 52 نقطة، وهو أعلى بكثير من 39 نقطة التي حصل عليها DeepSeek-V3. وفيما يتعلق بتقييم المعرفة العلمية (GPQA)، يتصدر Grok-3 برصيد 75 نقطة، بينما يحصل DeepSeek-V3 على 65 نقطة. وفي اختبار القدرة على البرمجة (LCB أكتوبر-فبراير)، تفوق Grok-3 أيضًا على DeepSeek-V3 بـ 57 نقطة مقابل 36 نقطة.

في أحدث اختبار أداء AIME 2025، حققت نسخة Grok-3 Reasoning Beta درجة ممتازة بلغت 93 نقطة في النتيجة المركبة لوقت الاستدلال والحوسبة، كما وصلت نسختها المبسطة Grok-3 mini أيضًا إلى 90 نقطة. وبالمقارنة، سجل DeepSeek-R1 75 نقطة، في حين سجل Gemini-2 Flash Thinking 54 نقطة فقط. وتسلط هذه النتيجة الضوء بشكل أكبر على المزايا البارزة لـ Grok-3 في التفكير الرياضي المعقد والكفاءة الحسابية.

ومن الجدير بالذكر بشكل خاص أن DeepSeek-R1، الذي أصدرته DeepSeek مؤخرًا، فشل أيضًا في التفوق على Grok-3 في اختبارات القدرة على التفكير الأخرى. وفي الاستدلال الرياضي، حصل Grok-3 على 93 نقطة وحصل DeepSeek-R1 على 73 نقطة؛ وفي الاستدلال العلمي، حصل Grok-3 على 85 نقطة وحصل DeepSeek-R1 على 74 نقطة؛ وفي الاستدلال البرمجي، وصل Grok-3 إلى 79 نقطة، بينما حصل DeepSeek-R1 على 65 نقطة.

بالإضافة إلى ذلك، في تقييم ساحة الدردشة الآلية LMSYS، سجل Grok-3 حوالي 1400 نقطة، وهو ليس فقط متجاوزًا سلسلة DeepSeek، بل متقدمًا أيضًا على النماذج الكبيرة السائدة الأخرى، بما في ذلك GPT-4 وClaude وما إلى ذلك.

تُظهر هذه البيانات أنه على الرغم من أن DeepSeek أظهر زخمًا قويًا في التطوير خلال الأشهر القليلة الماضية، إلا أن الأداء العام لـ Grok-3 لا يزال يحافظ على مكانته الرائدة. وعلى وجه الخصوص، فإن المزايا في التفكير الرياضي وكفاءة الحوسبة أكثر وضوحًا، وهو ما لا يعكس القوة التقنية لـ xAI في البحث والتطوير النموذجي فحسب، بل يُظهر أيضًا المنافسة الشرسة في مجال الذكاء الاصطناعي.