
المؤلف: لين جونيانغ، الرئيس السابق لشركة تونغي تشيان وين كوين، أصغر عضو في قائمة أفضل 10 أعضاء في علي بابا. سيغادر علي بابا في مارس 2026.
عنوان الجدول الأصلي: من التفكير "الاستدلالي" إلىمن التفكير "الاستدلالي" إلى التفكير "الفاعل" ... مع ذلك، انصبّ التركيز في النصف الأول من عام ٢٠٢٥ بشكل أساسي على "التفكير المنطقي": كيفية تخصيص المزيد من القدرة الحاسوبية للنماذج خلال فترات الاستدلال، وكيفية تدريبها بإشارات مكافأة أقوى، وكيفية عرض أو التحكم في مدخلات الاستدلال الإضافية هذه. السؤال الآن هو: ما الخطوة التالية؟ أعتقد أن الإجابة هي "التفكير الفعال": التفكير من أجل العمل، وتحديث الخطط باستمرار بناءً على التغذية الراجعة من العالم الحقيقي أثناء التفاعل مع البيئة. ١. ما الذي علّمنا إياه ظهور O1 وR1 حقًا؟ علّمتنا الموجة الأولى من نماذج الاستدلال أنه إذا أردنا توسيع نطاق التعلّم المعزز في نماذج اللغة، فنحن بحاجة إلى إشارات تغذية راجعة حتمية ومستقرة وقابلة للتوسع. أصبحت المجالات القابلة للتحقق مثل الرياضيات والبرمجة والمنطق أساسية لأن... هذا لأن إشارات المكافأة في هذه السيناريوهات أقوى بكثير من الإشراف التفضيلي العادي. فهي تسمح للتعلّم المعزز بالتركيز على "الصحة" بدلاً من "المنطق الظاهري". عندها تصبح البنية التحتية ذات أهمية قصوى. بمجرد تدريب النموذج على الاستدلال عبر مسارات أطول، لم يعد التعلم المعزز مجرد إضافة بسيطة لعملية الضبط الدقيق الخاضع للإشراف (SFT). بل أصبح مشكلة أنظمة معقدة. أنت بحاجة إلى نشر سياسات واسعة النطاق، وآليات تحقق عالية الإنتاجية، وتحديثات سياسات مستقرة، وقدرات أخذ عينات فعالة. يمثل ظهور نماذج الاستدلال طفرة في قدرات النمذجة وانتصارًا لهندسة البنية التحتية. تصف OpenAI منتج O1 بأنه خط إنتاج للاستدلال تم تدريبه باستخدام التعلم المعزز، وقد أكد DeepSeek R1 هذا التوجه لاحقًا. لقد أظهر للعالم الكم الهائل من الخوارزميات المخصصة وأعمال البنية التحتية المطلوبة للتعلم المعزز القائم على الاستدلال. شكل هذا أول تحول رئيسي في الصناعة: من توسيع التدريب المسبق إلى توسيع التدريب اللاحق لتعزيز قدرات الاستدلال. 2. المشكلة الحقيقية لا تكمن أبدًا في مجرد "دمج التفكير والتعليمات". في أوائل عام 2025، كان لدى العديد من أعضاء فريق Qwen رؤية طموحة: يجب أن يوحد النظام المثالي نمطي "التفكير" و"التعليمات". سيدعم هذا النظام مستويات تفكير قابلة للتعديل، على غرار إعدادات التفكير "منخفضة/متوسطة/عالية". والأفضل من ذلك، أنه سيستنتج تلقائيًا مقدار التفكير المطلوب بناءً على المحفزات والسياق، وبالتالي يحدد متى يجيب فورًا، ومتى يفكر مليًا، ومتى يستثمر موارد حاسوبية هائلة في المشكلات الصعبة حقًا. من الناحية النظرية، هذا هو الاتجاه الصحيح. يُعدّ Qwen3 أحد أوضح المحاولات العامة في هذا المجال. فهو يُقدّم "نمط تفكير هجين"، يوازن بين سلوكيات التفكير وغير التفكير ضمن نفس عائلة النماذج، مع التركيز على ميزانية تفكير قابلة للتحكم، ويصف مسارًا من أربع مراحل لما بعد التدريب - والذي يتضمن صراحةً "دمج نمط التفكير" بعد بدء التشغيل البارد طويل الأمد (long-CoT) والتعلم المعزز الاستدلالي. مع ذلك، فإن الدمج أسهل قولًا من فعل. تكمن الصعوبة في البيانات. عندما يتحدث الناس عن دمج التفكير والتعليمات، فإن أول ما يتبادر إلى الذهن غالبًا هو توافق النموذج: هل يمكن لنقطة التحقق دعم نمطين؟ هل يمكن لقالب المحادثة التبديل بسلاسة بين النمطين؟ هل يمكن لمجموعة الخدمات توفير مفاتيح تحكم مناسبة؟ مع ذلك، يكمن التناقض الأعمق في الاختلاف الجوهري في توزيع البيانات والأهداف السلوكية بين هذين النموذجين. في محاولتنا لتحقيق التوازن بين "دمج النماذج" و"تحسين جودة وتنوع بيانات ما بعد التدريب"، واجهنا بعض العقبات. خلال عملية المراجعة، راقبنا عن كثب كيفية استخدام المستخدمين لنموذجي التفكير والتعليم في سيناريوهات واقعية. غالبًا ما تأتي مكافآت نموذج التعليم الفعال من المباشرة والإيجاز والالتزام بالتنسيق، والحفاظ على زمن استجابة منخفض للغاية في المهام المتكررة ذات الحجم الكبير على مستوى المؤسسات (مثل إعادة الكتابة، والتعليق، ودعم القوالب، والاستخراج المنظم، والأسئلة والأجوبة التشغيلية). في المقابل، تأتي مكافآت نموذج التفكير الفعال من استهلاك المزيد من الرموز في المشكلات الصعبة، والحفاظ على تماسك الهياكل المنطقية الداخلية، واستكشاف مسارات بديلة، وحجز حساب داخلي كافٍ لتحسين الدقة النهائية بشكل كبير. هذان النمطان السلوكيان متعارضان. إذا لم يتم التخطيط بعناية لدمج البيانات، فغالبًا ما تكون النتيجة وضعًا خاسرًا للجميع: يصبح سلوك "التفكير" مشوشًا، أو متضخمًا، أو مترددًا؛ بينما يفقد سلوك "التعليمات" دقته، وتقل موثوقيته، وتتجاوز تكلفة استخدامه بكثير التوقعات الفعلية لمستخدمي الأعمال. لذلك، عمليًا، يظل فصل الاثنين خيارًا جذابًا. في وقت لاحق من عام 2025، وبعد البنية الهجينة الأولية لـ Qwen3، أصدرت سلسلة منتجات 2507 تحديثات منفصلة للتعليمات والتفكير، بما في ذلك إصداري 30B و235B المنفصلين. في التطبيقات التجارية، لا يزال العديد من العملاء يتوقون إلى إنتاجية عالية، وتكلفة منخفضة، وسلوك تعليمات قابل للتحكم بدرجة عالية لعمليات الدفعات. في هذه السيناريوهات، لا يحقق الدمج فوائد كبيرة. فصل خطي الإنتاج... سمح هذا للفريق بمعالجة تحديات البيانات والتدريب الخاصة بكل وضع بشكل أكثر دقة. اتخذت مختبرات أخرى نهجًا معاكسًا. دعت شركة أنثروبيك علنًا إلى فلسفة نموذج متكامل: فقد تم تقديم نموذج Claude 3.7 Sonnet كنموذج استدلال هجين، يسمح للمستخدمين بالاختيار بين الاستجابات العادية أو التفكير المعمق، كما يمكن لمستخدمي واجهة برمجة التطبيقات (API) تحديد ميزانية للتفكير. وأكدت أنثروبيك صراحةً أنها تعتقد أن الاستدلال يجب أن يكون قدرة مدمجة متكاملة، وليس نموذجًا منفصلاً ومستقلاً. وبالمثل، روّج نموذج GLM-4.5 لنفسه كنموذج استدلال هجين يجمع بين نمطين، محاولًا دمج قدرات الاستدلال والترميز والوكيل؛ وحذا DeepSeek حذوه لاحقًا مع آلية الاستدلال الهجينة "التفكير وعدم التفكير" في الإصدار 3.1. تكمن المشكلة الأساسية هنا في ما إذا كان هذا التكامل طبيعيًا وعضويًا. فإذا تم حشر التفكير والتعليمات قسرًا في نفس أوزان النموذج... وإذا تصرفا كشخصيتين مستقلتين تم ربطهما بشكل غير متقن، فستظل تجربة استخدام المنتج غير سلسة. يتطلب التكامل الناجح حقًا نطاقًا سلسًا من تفاعل الاستدلال. يجب أن يكون النموذج قادرًا على التعبير عن مستويات مختلفة من التفاعل واتخاذ خيارات تكيفية في ظل الظروف المثالية. يُجسّد التحكم في التفاعل على غرار GPT هذه النقطة بدقة: إنها استراتيجية لتخصيص القدرة الحاسوبية، وليست مجرد مفتاح ثنائي بسيط. 3. لماذا يُعدّ توجه أنثروبيك تصحيحًا مفيدًا؟ كانت جهود العلاقات العامة لشركة أنثروبيك فيما يتعلق بإصداري Claude 3.7 وClaude 4 محدودة للغاية. فقد ركزت على الاستدلال المتكامل، وميزانيات التفكير التي يتحكم بها المستخدم، والمهام الواقعية، وجودة الكود، والقدرة التي أُضيفت لاحقًا على استدعاء الأدوات أثناء التفكير المطوّل. قُدّم Claude 3.7 كنموذج استدلال هجين مُتحكم فيه بالميزانية؛ بينما يذهب Claude Step 4 خطوة أبعد، إذ يسمح لعمليات الاستدلال بالتداخل مع استدعاءات الأدوات. في الوقت نفسه، تُؤكد أنثروبيك مرارًا وتكرارًا أن البرمجة والمهام طويلة الأمد وسير العمل الوسيط هي أهدافها الأساسية. إن مجرد توليد مسارات استدلال أطول لا يجعل النموذج أكثر ذكاءً تلقائيًا. في كثير من الحالات، تكشف عمليات الاستدلال المكشوفة بشكل مفرط عن تخصيص غير فعال للموارد. إذا حاول نموذج ما تحليل كل شيء بنفس الأسلوب المطوّل، فهذا يدل على فشل في تحديد الأولويات، وتبسيط المعلومات، أو اتخاذ أي إجراء. يُظهر مسار تطوير أنثروبيك منظورًا أكثر انضباطًا: يجب أن يتشكل التفكير وفقًا لحجم العمل المستهدف. إذا كان الهدف هو البرمجة، فإن قيمة التفكير تكمن في التنقل بين قواعد البيانات، والتخطيط، وتقسيم المهام، ومعالجة الأخطاء، وتنسيق الأدوات. أما إذا كان الهدف هو سير العمل البديل، فيجب أن يركز التفكير على تحسين جودة التنفيذ على المدى الطويل، بدلًا من كتابة عبارات وسيطة مطوّلة. يشير هذا التركيز على "فائدة الهدف" إلى اتجاه أوسع: نحن ننتقل من عصر يركز على تدريب النماذج إلى عصر يركز على تدريب الوكلاء. وقد أوضحنا هذا الأمر جليًا في مدونتنا Qwen3 - "نحن ننتقل من عصر يركز على تدريب النماذج إلى عصر يركز على تدريب الوكلاء"، وربطنا نقطة الاختراق المستقبلية للتعلم المعزز بالتغذية الراجعة البيئية اللازمة للاستدلال طويل المدى. الوكيل هو نظام قادر على وضع الخطط، وتحديد وقت التصرف، واستخدام الأدوات، وإدراك ردود الفعل البيئية، وتعديل الاستراتيجيات، والعمل باستمرار لفترات طويلة. ويكمن تعريفه الأساسي في تفاعله الحلقي المغلق مع العالم الحقيقي. 4. ما المقصود حقًا بـ "التفكير القائم على الوكيل"؟ إن عقلية الوكيل تمثل هدفًا مختلفًا تمامًا للتحسين. عادةً ما يكون معيار تقييم "التفكير القائم على الاستدلال" هو جودة التداول الداخلي قبل الوصول إلى الإجابة النهائية: ما إذا كان النموذج قادرًا على حل النظريات، أو كتابة البراهين، أو توليد شفرة خالية من الأخطاء، أو اجتياز اختبارات الأداء. أما معيار تقييم "عقلية الوكيل"، فهو ما إذا كان النموذج قادرًا على إحراز تقدم كبير باستمرار في تفاعله مع البيئة. يتحول السؤال الأساسي من "هل يفكر النموذج لفترة كافية؟" إلى "هل طريقة تفكير النموذج كافية لدعم اتخاذ إجراء فعال؟". يجب أن تعالج عقلية الوكيل عدة مشكلات يمكن لنماذج الاستدلال البحت تجنبها إلى حد كبير: أ. تحديد وقت التوقف عن التفكير واتخاذ الإجراء. ب. اختيار الأداة المناسبة وترتيب استخدامها. ج. دمج الملاحظات المشوشة أو غير المكتملة من البيئة. د. إعادة ضبط الخطة بعد مواجهة الفشل. هـ. الحفاظ على التماسك المنطقي في جولات متعددة من الحوار واستدعاءات أدوات متعددة. باختصار، يجب على النموذج ذي التفكير البديل أن يستدل من خلال الفعل. 5. لماذا تُعد البنية التحتية للتعلم المعزز القائم على البدائل أكثر صعوبة؟ بمجرد أن يتحول الهدف من "حل المشكلات المعيارية" إلى "إكمال المهام التفاعلية"، تخضع حزمة تقنيات التعلم المعزز لتغيير جذري. البنية التحتية المستخدمة في التعلم المعزز الاستدلالي التقليدي غير كافية على الإطلاق. في التعلم المعزز الاستدلالي، يمكنك عادةً التعامل مع عمليات نشر السياسات كمسارات مستقلة نسبيًا، مزودة بمُقيِّمات واضحة وصريحة. ومع ذلك، في التعلم المعزز القائم على البدائل، تكون السياسة مُدمجة بعمق ضمن إطار داعم ضخم: خوادم الأدوات، والمتصفحات، والمحطات الطرفية، ومحركات البحث، والمحاكيات، وبيئات التنفيذ المعزولة، وطبقات واجهة برمجة التطبيقات، وأنظمة الذاكرة، وأطر التنسيق. لم تعد البيئة حكمًا ثابتًا؛ بل أصبحت جزءًا لا يتجزأ من نظام التدريب بأكمله. وقد أدى ذلك إلى ظهور متطلب جديد تمامًا على مستوى النظام: ضرورة فصل التدريب والاستدلال بشكل كامل. فبدون هذا الفصل، ستنهار إنتاجية نشر السياسات بشكل مباشر. تخيل وكيلًا برمجيًا يُشغّل الكود المُولّد في إطار اختبار فوري: سيُجبر طرف الاستدلال على التوقف مؤقتًا بانتظار ردود الفعل، وسيعاني طرف التدريب من نقص البيانات لعدم تلقيه بيانات المسار كاملة. سيكون استخدام وحدة معالجة الرسومات (GPU) في خط الأنابيب بأكمله أقل بكثير من استخدامه في التعلم المعزز التقليدي للاستدلال. وإذا أضفنا عوامل مثل زمن استجابة الأداة، وإمكانية المراقبة المحلية، والبيئات ذات الحالة، ستتفاقم أوجه القصور هذه. ونتيجة لذلك، سيصبح تقدم التجربة بأكملها بطيئًا للغاية ومؤلمًا قبل الوصول إلى مقاييس الأداء المتوقعة. وهكذا أصبحت البيئة نفسها منتجًا بحثيًا أساسيًا. في عصر الضبط الدقيق الخاضع للإشراف (SFT)، كنا ننجذب إلى تنوع البيانات. لكن في عصر الوكلاء، ينبغي لنا السعي بلا هوادة نحو جودة البيئة: الاستقرار، والواقعية، وتغطية المشهد، ومستويات الصعوبة، وتنوع الحالات، وثراء التغذية الراجعة، وقدرات مكافحة الغش، وقابلية تطوير الاستراتيجيات للتوسع. لقد أصبح بناء البيئات الافتراضية مسارًا رياديًا جادًا، وليس مجرد مشروع جانبي. إذا كان من المقرر تدريب الوكلاء في ظروف شبيهة بالإنتاج، فإن البيئة نفسها تُعد جزءًا من بنية التكنولوجيا الأساسية. 6. المجال المتطور التالي: مهارات تفكير أكثر عملية. أتوقع شخصيًا أن يصبح التفكير القائم على الوكلاء هو الشكل السائد للتفكير في المستقبل. أعتقد أنه سيقضي في النهاية على معظم أساليب التفكير القديمة القائمة على "المونولوج الثابت" - أي المسار الداخلي المطول والمعزول والمغلق الذي يحاول التغطية على افتقاره إلى القدرات التفاعلية من خلال الإسهاب في الكلام. حتى عند مواجهة مهام رياضية أو برمجية بالغة الصعوبة، يجب أن يتمتع النظام المتقدم حقًا بالحق في البحث والمحاكاة والتشغيل والفحص والتحقق والتعديل. هدفنا الأسمى هو حلّ مشاكل العالم الحقيقي بكفاءة وفعالية. تكمن أكبر عقبة في تدريب هذه الأنظمة في "اختراق المكافآت". فبمجرد حصول النموذج على صلاحيات واسعة للأدوات، يصبح اختراق المكافآت مدمرًا للغاية. قد يتعلم نموذج مزود بوظيفة البحث البحث عن الإجابات عبر الإنترنت مباشرةً أثناء تدريب التعلم المعزز. وقد يستغل وكيل البرمجة معلومات مستقبلية غير منشورة في قاعدة التعليمات البرمجية، أو يسيء استخدام السجلات، أو يجد طرقًا مختصرة لتعطيل المهمة مباشرةً. يمكن لبيئة ذات ثغرات خفية أن تجعل استراتيجية النموذج تبدو استثنائية، لكنها في الواقع مجرد تدريب خبير في الغش. بالمقارنة مع عصر الاستدلال، فإن الوضع في عصر الوكلاء أكثر حساسية وخطورة. فالأدوات الأكثر قوة تجعل النماذج أكثر فائدة، لكنها في الوقت نفسه تضخم مساحة هجوم التحسينات الزائفة أضعافًا مضاعفة. يمكننا أن نتوقع تمامًا... ستظهر العقبة الأكاديمية الرئيسية التالية في تصميم البيئة، ومتانة المُقيّمين، وبروتوكولات مكافحة الغش، ووضع معايير واجهة أكثر توحيدًا بين السياسات والعالم المادي. على الرغم من الصعوبات العديدة، يبقى التوجه العام ثابتًا لا يتزعزع: فالتفكير المدعوم بالأدوات أكثر قيمة بطبيعته، وأكثر قدرة على إحداث نقلة نوعية في الإنتاجية من التفكير المنعزل. كما يُشير التفكير القائم على الوكلاء إلى بروز "هندسة التجهيز". سيعتمد الذكاء الأساسي في المستقبل بشكل متزايد على التنظيم التعاوني لعدة وكلاء: مُنسق مركزي مسؤول عن تخطيط وجدولة المهام، ووكلاء متخصصون يعملون كخبراء في المجال، ووكلاء فرعيون مسؤولون عن تنفيذ المهام المُجزأة رأسيًا (لا يقتصر دورهم على أداء العمل فحسب، بل يُساعدون أيضًا في التحكم في السياق، وتجنب تداخل الذاكرة، والحفاظ على العزل المادي بين مستويات التفكير المختلفة). يتجه مستقبل الصناعة من تدريب النماذج إلى تدريب الوكلاء. وفي نهاية المطاف، يُؤدي هذا إلى تدريب أنظمة ضخمة. أرست المرحلة الأولى من موجة الاستدلال قاعدة راسخة: طالما كانت إشارات التغذية الراجعة موثوقة بدرجة كافية، والبنية التحتية قادرة على دعمها، فإن إضافة التعلم المعزز إلى نماذج اللغة يُمكن أن يُؤدي إلى قدرات معرفية تحويلية نوعيًا. يشهد قطاع الصناعة قفزة نوعية أعمق، إذ ينتقل من "التفكير القائم على الاستدلال" إلى "التفكير القائم على الوكلاء": أي من مجرد التفكير المطوّل إلى التفكير بهدف اتخاذ إجراء. لقد تغير الهدف الأساسي للتدريب، فلم يعد يقتصر على النموذج نفسه، بل أصبح نظامًا متكاملًا من "النموذج + البيئة"، وتحديدًا الوكيل وإطاره الداعم المحيط به. هذا يُغير فهمنا تمامًا لـ"منتجات البحث الأساسية": فبينما تُعد بنية النموذج وبيانات التدريب مهمة، إلا أن تصميم البيئة، والبنية التحتية لنشر الاستراتيجية، وقدرة المُقيِّم على مقاومة التشويش، والواجهة الأساسية للتعاون بين الوكلاء المتعددين، ستحظى بمكانة مساوية أو حتى أعلى. كما يُعيد هذا تعريف مفهوم "التفكير الجيد": فالتفكير "الجيد" الحقيقي هو عملية التفكير التي تدعم العمل بفعالية في ظل قيود العالم الحقيقي، بدلًا من مجرد التنافس على من يُنتج أطول نص أو من تكون عمليته الحسابية هي الأكثر وضوحًا. هذا يُغير أيضًا منطق الميزة التنافسية المستقبلية في عالم الأعمال. في عصر الاستدلال، كان الفائز هو من يمتلك خوارزمية تعلم معزز أفضل، وإشارات تغذية راجعة أنقى، ومنهجية تدريب أكثر قابلية للتوسع. أما في عصر الوكلاء، فستكون الميزة الحاسمة هي من يمتلك بيئة أكثر واقعية، وبنية "تدريب متكاملة" أكثر سلاسة، وقدرات هندسية أقوى للأطر، ومن يستطيع تحقيق التوازن الأمثل بين "قرار النموذج" و"النتائج الحقيقية لهذا القرار". أغلق حلقة التغذية الراجعة الحاسمة هذه.