المؤلف: Sleepy.txt

انتهت مسابقة Alpha Arena AI Trading التي طال انتظارها في الساعات الأولى من يوم 4 نوفمبر.
كانت النتائج غير متوقعة. فاز Qwen 3 Max من Alibaba بالبطولة بنسبة عائد بلغت 22.32%، بينما جاءت شركة صينية أخرى، DeepSeek، في المركز الثاني بنسبة عائد بلغت 4.89%.
تكبد المتسابقون ذوو النجوم الأربعة من وادي السيليكون هزيمة نكراء.
تكبد جميع المتسابقين ذوو النجوم الأربعة من وادي السيليكون هزيمة نكراء.
خسر GPT-5 من OpenAI نسبة 62.66%، وخسر Gemini 2.5 Pro من Google نسبة 56.71%، وخسر Grok 4 من Musk نسبة 45.3%، وخسر Claude 4.5 Sonnet من Anthropic نسبة 30.81%. كانت هذه المسابقة في الواقع تجربة فريدة. في 17 أكتوبر، نشرت شركة الأبحاث الأمريكية Nof1.ai ستة من أفضل نماذج اللغات الكبرى في العالم في سوق العملات الرقمية الحقيقي. حصل كل نموذج على تمويل أولي قدره 10,000 دولار أمريكي، وتداول عقودًا دائمة على منصة التداول اللامركزية Hyperliquid لمدة 17 يومًا. العقود الدائمة هي مشتقات مالية بدون تاريخ انتهاء صلاحية، مما يسمح للمتداولين بالاستفادة من أرباحهم، ولكنه في الوقت نفسه يُضخّم مخاطرهم. انطلقت هذه الذكاءات الاصطناعية من نفس النقطة واستخدمت بيانات السوق نفسها، لكن النتائج النهائية كانت مختلفة تمامًا. لم يكن هذا اختبارًا معياريًا في بيئة افتراضية؛ بل كان لعبة بقاء حقيقية. عندما تغادر الذكاءات الاصطناعية بيئة المختبر "العقيمة" وتواجه السوق الحقيقي الديناميكي والمُنافس وغير المؤكد لأول مرة، لن تُحدد خياراتها بعد الآن بمعايير النموذج، بل بفهمها للمخاطر والجشع والخوف. أظهرت هذه التجربة لأول مرة أنه عندما يواجه ما يسمى "الذكاء" تعقيدات العالم الحقيقي، فإن الأداء الأنيق للنماذج غالبًا ما يصبح غير مستدام، مما يكشف عن عيوب تتجاوز التدريب. من المُختبر إلى المتداول لفترة طويلة، استخدم الناس معايير ثابتة مختلفة لقياس قدرات الذكاء الاصطناعي. من MMLU إلى HumanEval، حقق الذكاء الاصطناعي درجات أعلى بشكل متزايد في هذه الاختبارات المعيارية، حتى أنه تجاوز البشر. لكن جوهر هذه الاختبارات يشبه حل المشكلات في غرفة هادئة، بأسئلة وأجوبة ثابتة؛ يحتاج الذكاء الاصطناعي فقط إلى إيجاد الحل الأمثل من كميات هائلة من البيانات. حتى أكثر مسائل الرياضيات تعقيدًا يمكن حفظها. العالم الحقيقي، وخاصة الأسواق المالية، مختلف تمامًا. إنه ليس بنك أسئلة ثابتًا، ولكنه ساحة متغيرة باستمرار مليئة بالضوضاء والخداع. إنها لعبة محصلتها صفر؛ ربح شخص واحد يعني حتمًا خسارة شخص آخر. تقلبات الأسعار ليست مجرد نتيجة لحساب عقلاني؛ كما أنها مدفوعة بالعواطف البشرية - الجشع والخوف والتمني والتردد - والتي تتجلى بوضوح في كل ارتفاع في الأسعار. والأكثر تعقيدًا من ذلك، أن السوق نفسه يتفاعل مع السلوك البشري؛ فعندما يعتقد الجميع أن الأسعار سترتفع، غالبًا ما تكون قد بلغت ذروتها بالفعل. آلية التغذية الراجعة هذه تصحح باستمرار، وتؤدي إلى نتائج عكسية، وتعاقب اليقين، مما يجعل أي اختبار ثابت غير فعال تمامًا. يهدف برنامج Alpha Arena من Nof1.ai إلى وضع الذكاء الاصطناعي في بوتقة اجتماعية واقعية. يُمنح كل نموذج أموالًا حقيقية؛ الخسائر حقيقية، والأرباح حقيقية. يجب أن تقوم النماذج بإجراء التحليلات واتخاذ القرارات ووضع الأوامر وإدارة المخاطر بشكل مستقل. هذا يمنح كل ذكاء اصطناعي غرفة تداول مستقلة، مما يحوله من "مُجري اختبار" إلى "متداول". يجب أن يقرر ليس فقط اتجاه مراكزه، ولكن أيضًا حجم المركز، وتوقيت دخوله، وما إذا كان سيضع أوامر إيقاف الخسارة أو جني الأرباح.

سجلات عمليات نماذج مختلفة|مصدر الصورة: nof1
والأهم من ذلك، أن كل قرار من قراراتهم يُغير البيئة التجريبية. فالشراء يرفع الأسعار، والبيع يُخفضها، وأوامر وقف الخسارة قد تُنقذ الأرواح أو تُفقد المستثمرين فرص الارتداد. السوق متقلب، وكل خطوة تُشكل الوضع التالي. تهدف هذه التجربة إلى الإجابة على سؤال أكثر جوهرية: هل يُدرك الذكاء الاصطناعي المخاطر حقًا؟ في الاختبارات الثابتة، يُمكنه الوصول إلى "الإجابة الصحيحة" بلا حدود من خلال الذاكرة ومطابقة الأنماط؛ ولكن في سوق حقيقية خالية من الإجابات القياسية، مليئة بالضجيج والتغذية الراجعة، إلى متى يُمكن الحفاظ على "ذكائه" عندما يتعين عليه التصرف وسط حالة من عدم اليقين؟ لقد لقن السوق الذكاء الاصطناعي درسًا. كانت المنافسة أكثر دراماتيكية من المتوقع. في منتصف أكتوبر، كان سوق العملات المشفرة شديد التقلب، مع تقلب سعر البيتكوين يوميًا تقريبًا. بدأت ستة نماذج ذكاء اصطناعي أول تداول مباشر لها في هذه البيئة. حركة سعر البيتكوين خلال المنافسة | المصدر: TradingView بحلول 28 أكتوبر، في منتصف المسابقة، تم إصدار قائمة المتصدرين في منتصف المدة. ارتفعت قيمة حساب DeepSeek إلى 22,500 دولار، بعائد 125%. بمعنى آخر، ضاعفت الشركة رأس مالها بأكثر من الضعف في 11 يومًا فقط. وتبعتها Qwen التابعة لشركة Alibaba عن كثب، بعائد تجاوز 100%. حتى كلود وجرو، اللذان تعثرا لاحقًا، حافظا على أرباح بنسبة 24% و13% على التوالي في ذلك الوقت. انفجرت وسائل التواصل الاجتماعي بسرعة. بدأ البعض في مناقشة ما إذا كان ينبغي تكليف إدارة محافظهم الاستثمارية بالذكاء الاصطناعي، بينما اقترح آخرون مازحين أن الذكاء الاصطناعي ربما وجد بالفعل سر الأرباح المضمونة. ومع ذلك، سرعان ما أصبحت الحقائق القاسية للسوق واضحة. مع دخول أوائل نوفمبر، حامت عملة البيتكوين حول 110,000 دولار، مع زيادة التقلب بشكل كبير. تكبدت النماذج التي كانت تضيف إلى مراكزها خلال الاتجاه الصعودي خسائر فادحة عندما انعكس السوق. في النهاية، تمكن نموذجان فقط من الصين من الحفاظ على أرباحهما، بينما عانت النماذج الأمريكية من هزيمة ساحقة. أظهرت لنا هذه المنافسة الشاقة، ولأول مرة، أن الذكاء الاصطناعي الذي ظننا أنه متقدم جدًا لم يكن بذكاء ما كنا نتخيله في السوق الحقيقي. التباين في استراتيجيات التداول: تكشف بيانات التداول عن "شخصية" كل ذكاء اصطناعي. تداولت Qwen 43 مرة فقط خلال 17 يومًا، بمتوسط أقل من ثلاث مرات يوميًا، مما جعلها الأكثر تحفظًا بين جميع المشاركين. لم يكن معدل فوزها استثنائيًا، لكن نسبة الربح/الخسارة لكل صفقة كانت مرتفعة للغاية، حيث بلغ أكبر ربح فردي لها 8,176 دولارًا. بمعنى آخر، لم تكن Qwen "الأكثر دقة في التنبؤ"، بل "المراهن الأكثر انضباطًا". لم تتحرك إلا في لحظات معينة، مفضلة البقاء خاملة عند عدم اليقين. حدّت هذه الاستراتيجية عالية الجودة من انخفاضاتها خلال تصحيحات السوق، مما ضمن مكاسبها في النهاية. كان معدل تداول DeepSeek مشابهًا لـ Qwen، بـ 41 صفقة فقط على مدار 17 يومًا، لكن أداءها كان أشبه بأداء مدير صندوق حذر. كانت نسبة شارب هي الأعلى بين جميع المشاركين، حيث وصلت إلى 0.359، وهو رقم ملحوظ في سوق العملات المشفرة شديد التقلب. في الأسواق المالية التقليدية، تُستخدم نسبة شارب عادةً لقياس العوائد المعدلة حسب المخاطر. تشير القيمة الأعلى إلى استراتيجية أكثر قوة. ومع ذلك، في مثل هذه الفترة القصيرة ومع مثل هذه الظروف السوقية المتقلبة، فإن أي نموذج يحافظ على قيمة إيجابية ليس بالأمر السهل. يوضح أداء DeepSeek أنه لا يسعى إلى تحقيق أقصى عوائد ولكنه يسعى بدلاً من ذلك إلى الحفاظ على التوازن في بيئة صاخبة. طوال المنافسة، حافظ على وتيرة ثابتة، متجنبًا مطاردة الارتفاعات والتصرف باندفاع. أشبه بالمتداول ذي النظام الصارم، مفضلاً التخلي عن الفرص بدلاً من السماح للعواطف بإملاء القرارات. في المقابل، كشف أداء معسكر الذكاء الاصطناعي الأمريكي عن مشكلات كبيرة في التحكم في المخاطر. وضع Gemini من Google 238 طلبًا في 17 يومًا، بمتوسط أكثر من 13 طلبًا في اليوم، وهو الأكثر تكرارًا بين جميع المشاركين. جلبت هذه التداولات عالية التردد أيضًا تكاليف باهظة، حيث استهلكت رسوم المعاملات وحدها 1331 دولارًا، وهو ما يمثل 13٪ من رأس المال الأولي. في منافسة برأس مال ابتدائي قدره 10000 دولار فقط، يعد هذا استنزافًا ذاتيًا كبيرًا. والأسوأ من ذلك، أن هذا التداول المتكرر لم يحقق فوائد إضافية. حاول جيميني باستمرار، وأوقف الخسائر، وحاول مرة أخرى، مثل مستثمر تجزئة مهووس بمراقبة السوق، يقوده أنفه ضجيج السوق. كل تقلب صغير في الأسعار أدى إلى أوامر التداول الخاصة به. لقد تفاعل بسرعة كبيرة مع التقلبات ولكنه كان بطيئًا جدًا في إدراك المخاطر. في التمويل السلوكي، يسمى هذا الخلل بالثقة المفرطة. بالغ المتداولون في تقدير قدراتهم التنبؤية مع تجاهل تراكم عدم اليقين والتكاليف. إن فشل جيميني هو نتيجة نموذجية لهذه الثقة المفرطة العمياء. كان أداء GPT-5 الأكثر خيبة أمل. لم يقم بالعديد من الصفقات - 116 في 17 يومًا - ولكن لم يكن لديه أي سيطرة على المخاطر تقريبًا. بلغت أكبر خسارة منفردة لها 622 دولارًا، بينما بلغ أكبر ربح لها 271 دولارًا فقط، وهي نسبة ربح إلى خسارة غير متوازنة بشدة. كان الأمر أشبه بمقامر مدفوع بالثقة، يفوز أحيانًا عندما يكون السوق مواتيًا، لكن خسائره تضاعفت بمجرد انعكاس السوق. نسبة شارب الخاصة بها هي -0.525، مما يعني أن المخاطرة التي تم اتخاذها لم تحقق أي عائد. في مجال الاستثمار، تكاد هذه النتيجة تُعادل "من الأفضل عدم القيام بأي شيء". تُثبت هذه التجربة مجددًا أن ما يُحدد النجاح حقًا ليس دقة تنبؤات النموذج، بل كيفية تعامله مع حالة عدم اليقين. إن فوز كوين وديب سيك هو في جوهره انتصار في مجال التحكم في المخاطر. يبدو أنهما يُدركان بشكل أفضل أن البقاء في السوق يأتي قبل الذكاء. تُمثل نتائج ألفا أرينا استهزاءً كبيرًا بنظام تقييم الذكاء الاصطناعي الحالي. غالبًا ما تتعثر "النماذج الذكية" التي تحتل مراتب عالية في المعايير مثل MMLU في السوق الحقيقي. هذه النماذج تُعدّ نماذج لغوية مُتقنة، مبنية على نصوص لا تُحصى، قادرة على توليد إجابات دقيقة منطقيًا ونحويًا، لكنها قد لا تفهم الواقع الذي تُشير إليه هذه الكلمات. يستطيع الذكاء الاصطناعي كتابة بحث عن إدارة المخاطر في ثوانٍ، مع الاستشهادات المناسبة والمنطق الكامل؛ ويمكنه شرح نسبة شارب، وأقصى انخفاض، والقيمة المعرضة للخطر بدقة. ولكن عندما يمتلك أموالًا بالفعل، فقد يتخذ أكثر القرارات خطورة. ولأنه "يعرف" فقط، فإنه لا "يفهم". المعرفة والفهم شيئان مختلفان. القدرة على القول والقدرة على الفعل عالمان مُختلفان تمامًا. تُسمى هذه الفجوة، من الناحية الفلسفية، مشكلة معرفية. ميّز أفلاطون ذات مرة بين المعرفة والمعتقدات الحقيقية. المعرفة ليست مجرد معلومات صحيحة، بل تتطلب أيضًا فهم سبب صحتها. قد تحتوي نماذج اللغة الكبيرة اليوم على عدد لا يُحصى من "المعلومات الصحيحة"، لكنها تفتقر إلى هذا الفهم. يمكنها أن تُخبرك بأهمية إدارة المخاطر، لكنها لا تعرف كيف يكتسب البشر هذه الأهمية من خلال الخوف والخسارة. السوق الحقيقي هو الاختبار النهائي للفهم. لن يُشكل لك أي استثناء لمجرد أنك خبير في GPT-5؛ فكل قرار خاطئ سيُترجم فورًا إلى خسائر مالية. في المختبر، يُمكن للذكاء الاصطناعي أن يبدأ من جديد مرات لا تُحصى، مُعدّلًا باستمرار المعايير ومُجريًا اختبارات خلفية حتى يجد ما يُسمى "الإجابة الصحيحة". أما في السوق، فكل خطأ يعني خسارة حقيقية للمال، ولا سبيل للتراجع. منطق السوق أعقد بكثير مما يُمكن لأي نموذج تخيله. فعندما يخسر رأس المال بنسبة 50%، يلزم عائد بنسبة 100% للعودة إلى نقطة البداية؛ وعندما تتوسع الخسارة إلى 62.66%، يرتفع العائد اللازم لتحقيق التعادل إلى 168%. هذا الخطر غير الخطي يُضاعف تكلفة الأخطاء بشكل كبير. يُمكن للذكاء الاصطناعي تقليل الخسائر من خلال الخوارزميات أثناء التدريب، لكنه لا يستطيع استيعاب آلية عقاب السوق هذه التي يُشكّلها الخوف والتردد والجشع. لهذا السبب، يُصبح السوق مرآةً لاختبار مصداقية الذكاء؛ فهو يسمح لكل من البشر والآلات برؤية ما يفهمونه حقًا وما يخشونه حقًا. تدفع هذه المنافسة أيضًا إلى إعادة تقييم الاختلافات بين الصين والولايات المتحدة في مناهج البحث والتطوير في مجال الذكاء الاصطناعي. لا تزال العديد من الشركات الأمريكية الرئيسية ملتزمة بنهج النموذج متعدد الأغراض، على أمل بناء أنظمة تُظهر قدرات مستقرة في مجموعة واسعة من المهام. تنتمي نماذج OpenAI وGoogle وAnthropic إلى هذا النوع، حيث تهدف إلى الاتساع والاتساق، مما يُمكّن النماذج من امتلاك قدرات فهم واستدلال شاملة. من ناحية أخرى، تميل الفرق الصينية إلى مراعاة آليات تنفيذ سيناريوهات محددة وآليات التغذية الراجعة في مرحلة مبكرة من تطوير النموذج. على الرغم من أن Qwen من Alibaba هو أيضًا نموذج متعدد الأغراض، إلا أن بيئات التدريب والاختبار الخاصة به دُمجت مع أنظمة أعمال فعلية في وقت سابق. قد تجعل هذه التغذية الراجعة للبيانات من سيناريوهات واقعية النموذج أكثر حساسية للمخاطر والقيود. يُظهر أداء DeepSeek أيضًا خصائص مماثلة؛ يبدو أنه قادر على تصحيح القرارات بسرعة أكبر في البيئات الديناميكية. الأمر لا يتعلق بـ "من يفوز ومن يخسر". تُتيح هذه التجربة نافذة على الاختلافات في الأداء بين فلسفات التدريب المختلفة في العالم الحقيقي. تُؤكد النماذج متعددة الأغراض على العالمية، لكنها عُرضة للتباطؤ في البيئات القاسية؛ بينما قد تبدو النماذج التي تُواجه ردود فعل واقعية مُبكرة أكثر مرونة واستقرارًا في الأنظمة المُعقدة. وبالطبع، قد لا تُمثل نتيجة مُنافسة واحدة القوة الكلية للذكاء الاصطناعي في الصين والولايات المتحدة. ففترة التداول التي تبلغ سبعة عشر يومًا قصيرة جدًا، ولا يُمكن استبعاد تأثير الحظ؛ فلو كانت الفترة الزمنية أطول، لكانت النتيجة مُختلفة تمامًا. علاوة على ذلك، اقتصر هذا الاختبار على تداول عقود العملات المُشفرة الدائمة، وهو أمر لا يُمكن تعميمه على جميع الأسواق المالية، كما أنه لا يكفي لتلخيص أداء الذكاء الاصطناعي في مجالات أخرى. ومع ذلك، فهو كافٍ لدفعنا لإعادة التفكير في ماهية القدرة الحقيقية. عندما يُوضع الذكاء الاصطناعي في بيئات واقعية ويحتاج إلى اتخاذ قرارات وسط المخاطر وعدم اليقين، لا نرى فقط الفائزين والخاسرين في الخوارزميات، بل نرى أيضًا الاختلافات في مساراتها. وعلى مسار تحويل تقنية الذكاء الاصطناعي إلى إنتاجية فعلية، أخذت النماذج الصينية زمام المبادرة في بعض المجالات المُحددة. في لحظة انتهاء المسابقة، تم تصفية آخر مركز بيتكوين لشركة كوين، ليصبح رصيد حسابها 12,232 دولارًا. فازت، لكنها لم تكن تعلم بذلك. لم يكن ربح الـ 22.32% ذا قيمة بالنسبة لها؛ كان مجرد تنفيذ آخر لتعليمة. في وادي السيليكون، ربما لا يزال المهندسون يحتفلون بتحسن نتيجة MMLU لـ GPT-5 بنسبة 0.1% أخرى. في هذه الأثناء، على الجانب الآخر من العالم، أثبت الذكاء الاصطناعي الصيني، بأبسط طريقة، في كازينو بأموال حقيقية، أن الذكاء الاصطناعي الجيد هو الذي يمكنه جني المال. أعلنت Nof1.ai أن الموسم القادم من المسابقة على وشك البدء، بمدة أطول، وعدد أكبر من المشاركين، وبيئة سوق أكثر تعقيدًا. ماذا ستتعلم النماذج التي فشلت في الموسم الأول من خسائرها؟ هل ستكرر نفس المصير وسط تقلبات أكبر؟ لا أحد يعرف الإجابة. لكن هناك أمر واحد مؤكد: عندما يبدأ الذكاء الاصطناعي بالخروج من برجه العاجي وإثبات نفسه بأموال حقيقية، سيتغير كل شيء.