OpenAI's ChatGPT على وشك تقديم مجموعة تحويلية من الميزات الجديدة المعدة لإعادة تعريف تفاعل المستخدم.
فيتم الإعلان عنه في 25 سبتمبر عبر منشور مدونته الرسمي كشفت OpenAI عن تحسيناتها القادمة التي ستمكن المستخدمين من التفاعل مع ChatGPT من خلال الوسائط الديناميكية للصور والتعرف على الصوت.
ومن بين أبرز ميزات هذه الترقية قدرة المستخدمين على التفاعل مع ChatGPT عبر الأوامر الصوتية، مما يعد بتجربة مستخدم أكثر تخصيصًا وغامرة.
تستمد هذه الميزة قوتها من نموذج تحويل النص إلى كلام الماهر في توليد الصوت بناءً على الحد الأدنى من عينة الكلام، والتي صممها ممثلون صوتيون محترفون.
ومن الجدير بالذكر أن نظام التعرف على الكلام مفتوح المصدر الخاص بـ OpenAI، والمعروف باسم Whisper، يلعب دورًا أساسيًا في تشغيل هذه الواجهة الصوتية المبتكرة.
التطبيقات المحتملة لهذه الميزات الصوتية متنوعة بقدر ما هي مثيرة للاهتمام.
يمكن للمستخدمين توقع نطاق أوسع من حالات الاستخدام، بدءًا من قراءة قصص ما قبل النوم وصياغة الوصفات إلى تأليف الخطب وقراءة الشعر وتوضيح العبارات الشائعة أو حتى التحكيم في "مناقشات مائدة العشاء".
رؤية OpenAI واضحة: تعزيز وإثراء الطرق التي يتفاعل بها الأفراد مع التكنولوجيا في حياتهم اليومية.
علاوة على ذلك، تستعد OpenAI لتمكين المستخدمين من إرسال الصور إلى ChatGPT للتفسير والرد، أو تسليط الضوء بشكل انتقائي على عناصر محددة داخل الصور للاستكشاف التفصيلي.
وفقا للشركة:
"يمنحك الصوت والصورة المزيد من الطرق لاستخدام ChatGPT في حياتك. التقط صورة لمعلم أثناء السفر وقم بإجراء محادثة مباشرة حول ما هو مثير للاهتمام بشأنه."
تجد هذه الإضافات مكانها ضمن نطاق ما يشير إليه OpenAI بـ GPT Vision أو GPT-V، وهو يختلف عن GPT-5 النظري ولكنه خطوة كبيرة للأمام مع ذلك.
هذه العناصر، التي تشكل الأساس لنسخة محسنة متعددة الوسائط من GPT-4 ، تتماشى مع الإعلانات التشويقية السابقة لـ OpenAI حول تطور تقنيتها في وقت سابق من هذا العام.
تأتي هذه الترقية المهمة في أعقاب كشف OpenAI عن DALL-E 3، وهو منشئ تحويل النص إلى صورة والذي نال الثناء من المختبرين الأوائل لجودته ودقته الاستثنائيتين.
في تقارب مثير للاهتمام، تجد DALL-E 3 مكانها داخل ChatGPT Plus، وهي خدمة اشتراك مدعومة بـ GPT-4.
يدل دمج DALL-E 3 والدردشة الصوتية على التزام OpenAI الثابت بتطوير مساعدي الذكاء الاصطناعي ذوي القدرة على إدراك العالم المشابه للإدراك البشري، وتسخير الحواس المتعددة لتعزيز تجربة المستخدم.
هل هناك أي مخاطر تنطوي عليها أنظمة الذكاء الاصطناعي متعددة الوسائط التي تتضمن الرؤية وتوليد الصوت؟
ومع ذلك، تحافظ OpenAI على موقف يقظ فيما يتعلق بالمخاطر المحتملة الكامنة في تعزيز قدرات أنظمة الذكاء الاصطناعي متعددة الوسائط التي تشمل توليد الرؤية والصوت.
تدور المخاوف ذات الصلة حول مخاطر انتحال الشخصية، وشبح التحيز الكامن، والاعتماد المعقد على التفسير البصري.
وذكرت الشركة في إعلانها:
"هدف OpenAI هو بناء الذكاء الاصطناعي العام (AGI) بشكل آمن ومفيد. نحن نؤمن بإتاحة أدواتنا تدريجيًا، مما يسمح لنا بإجراء تحسينات وتحسين عمليات تخفيف المخاطر بمرور الوقت مع إعداد الجميع أيضًا لأنظمة أكثر قوة في المستقبل.
وفي خطوة استراتيجية، حددت OpenAI خطة طرح هذه الميزات المبتكرة.
وفي المستقبل القريب، سيتم منح مستخدمي Plus وEnterprise إمكانية الوصول إلى هذه الإمكانات خلال الأسبوعين المقبلين.
علاوة على ذلك، لدى OpenAI نوايا لتوسيع هذا الوصول إلى مجتمع أوسع من المطورين في المراحل اللاحقة.