الذكاء الاصطناعي يتقدم، لكنه لا يزال يفشل في فهم التفاعلات البشرية
بينما الذكاء الاصطناعي على الرغم من استمرار تطورها، إلا أنها تظل تواجه تحديات تتمثل في تعقيدات التفاعلات الاجتماعية البشرية.
تسلط دراسة حديثة أجريت في الولايات المتحدة الضوء على هذا القيد، حيث كشفت أنه في حين يمكن للذكاء الاصطناعي التعرف بكفاءة على الأشياء والوجوه في الصور الثابتة، فإنه يواجه صعوبة في وصف وتفسير الديناميكيات الاجتماعية في المشاهد المتحركة.
وهدف البحث الذي قادته ليلى إيزيك، أستاذة العلوم الإدراكية بجامعة جونز هوبكنز، إلى تقييم كيفية فهم نماذج الذكاء الاصطناعي للسلوك الاجتماعي.
ولتحقيق هذه الغاية، أجرى الفريق تجربة واسعة النطاق شملت أكثر من 350 نموذجًا للذكاء الاصطناعي، كل منها متخصص في معالجة الفيديو أو الصور أو اللغة.
وقد عُرضت على هذه النماذج مقاطع فيديو قصيرة، مدة كل منها ثلاث ثوان، تصور مواقف اجتماعية مختلفة، بينما قام المشاركون من البشر بتقييم شدة التفاعلات على مقياس من 1 إلى 5.
وكان الهدف هو مقارنة كيفية تفسير البشر والذكاء الاصطناعي لهذه السيناريوهات، وتوفير رؤى قيمة حول القيود الحالية للذكاء الاصطناعي في فهم الفروق الدقيقة للتفاعلات الاجتماعية.
الفجوة الحرجة في نماذج الذكاء الاصطناعي الحديثة
ال بشر وأظهر المشاركون في الدراسة اتساقًا ملحوظًا في تقييماتهم، مما يعكس فهمًا عميقًا ومشتركًا للتفاعلات الاجتماعية.
وعلى النقيض من ذلك، واجهت الذكاء الاصطناعي صعوبة في تكرار هذه الأحكام.
كانت النماذج المتخصصة بالفيديو غير فعالة بشكل خاص في تفسير المشاهد بدقة، في حين واجهت النماذج المستندة إلى الصور الثابتة، حتى عندما تم تزويدها بمقتطفات فيديو متعددة، صعوبة في تحديد ما إذا كانت الشخصيات منخرطة في التواصل.
كان أداء نماذج اللغة أفضل قليلاً، وخاصة عندما تم تزويدها بأوصاف مكتوبة من قبل البشر، ولكنها لا تزال أقل بكثير من مستوى الفهم البشري.
ويرى إيسيك أن عدم قدرة الذكاء الاصطناعي على فهم الديناميكيات الاجتماعية البشرية يمثل عائقًا كبيرًا أمام اندماجه الفعال في التطبيقات في العالم الحقيقي.
يوضح المؤلف الرئيسي للدراسة في بيان صحفي:
على سبيل المثال، سيحتاج الذكاء الاصطناعي المُستخدم في السيارات ذاتية القيادة إلى التعرّف على نوايا وأهداف وأفعال السائقين والمشاة. يُفترض أن يعرف اتجاه سير المشاة، أو ما إذا كان شخصان يتحدثان أم على وشك عبور الشارع. في كل مرة تريد فيها تفاعل الذكاء الاصطناعي مع البشر، يجب أن يكون قادرًا على التعرّف على أفعالهم. أعتقد أن هذه [الدراسة] تُسلّط الضوء على حقيقة أن هذه الأنظمة لا تستطيع ذلك حاليًا.
ويشير الباحثون إلى أن هذه الفجوة قد تنبع من تصميم الشبكات العصبية للذكاء الاصطناعي، والتي تم تصميمها في المقام الأول على غرار مناطق الدماغ المسؤولة عن معالجة الصور الثابتة.
في المقابل، تتطلب المشاهد الاجتماعية الديناميكية مشاركة مناطق مختلفة من الدماغ، مما يخلق عدم تطابق هيكلي يمكن أن يفسر ما يصفه الباحثون بـ "النقطة العمياء" في تطوير الذكاء الاصطناعي.
وأشارت المؤلفة المشاركة في الدراسة، كاثي جارسيا، إلى ما يلي:
في الواقع، "الحياة الواقعية ليست ثابتة. نحتاج إلى الذكاء الاصطناعي لفهم القصة التي تتكشف في مشهد ما."
وفي نهاية المطاف، تسلط الدراسة الضوء على الانقسام العميق بين الإدراك البشري والذكاء الاصطناعي للسيناريوهات الاجتماعية الديناميكية.
وعلى الرغم من القوة الحسابية المذهلة التي تتمتع بها الذكاء الاصطناعي وقدرتها على معالجة كميات هائلة من البيانات، فإنه يظل غير قادر على فهم النوايا الدقيقة والضمنية التي تكمن وراء التفاعلات الاجتماعية البشرية.
رغم أن الذكاء الاصطناعي حقق تقدماً كبيراً، إلا أنه لا يزال يواجه تحديات كبيرة في فهم تعقيد السلوك البشري.