تعاون بين هارفارد وجوجل لإصدار مليون كتاب لتدريب الجيل القادم من الذكاء الاصطناعي
هارفارد كشفت جامعة، بالتعاون مع جوجل، عن مجموعة بيانات مكونة من مليون كتاب متاح للمجال العام بهدف تعزيز تدريب الذكاء الاصطناعي.
تشمل هذه المجموعة المتنوعة العديد من الأنواع واللغات والمؤلفين المشهورين مثل ديكنز ودانتي وشكسبير، الذين دخلت أعمالهم المجال العام بسبب قدمها.
تعالج هذه المبادرة التكاليف المرتفعة المرتبطة عادة ببيانات تدريب الذكاء الاصطناعي، مما يجعلها موردًا قيمًا لتعزيز الابتكار في تطوير الذكاء الاصطناعي.
شركات التكنولوجيا العملاقة تدعم المبادرة
تقود مبادرة بيانات هارفارد المؤسسية (IDI) جهدًا رائدًا لتوفير مجموعة بيانات شاملة مستمدة من مشروع مسح الكتب الشامل لشركة Google،جوجل كتب.
تشمل هذه المجموعة مجموعة واسعة من النصوص، من كتب الرياضيات التشيكية إلى القواميس الجيبية الويلزية، مما يوفر ثروة من المعرفة لتدريب الذكاء الاصطناعي.
أعلنت مبادرة IDI، التي تم الترويج لها لأول مرة في شهر مارس/آذار، عن خططها لإنشاء "قناة موثوقة للبيانات القانونية للذكاء الاصطناعي"، مع القليل من المتابعة حتى إطلاقها الرسمي يوم الخميس.
بتمويل من شركة التكنولوجيا العملاقة مايكروسوفت وOpenAI تم تصميم هذه المبادرة لجعل البيانات عالية الجودة والمتاحة للعامة متاحة ليس فقط للشركات الكبرى ولكن أيضًا لمختبرات الأبحاث وشركات الذكاء الاصطناعي الناشئة التي تتطلع إلى تدريب نماذج لغوية كبيرة.
وأكد المدير التنفيذي لـ IDI جريج ليبيرت أن مجموعة البيانات تهدف إلى تحقيق تكافؤ الفرص، وتقليل الحواجز أمام الشركات الصغيرة التي تواجه تكاليف تدريب باهظة.
وأكد أيضًا أن مجموعة البيانات تخضع لمراجعة دقيقة لضمان الجودة والدقة.
لا تزال هناك حاجة إلى المزيد من الموارد
ليبيرت، مقارنة إمكاناتهارفارد ويشير أحد المشاركين في المبادرة، الذي يقارن بين مجموعة البيانات الخاصة بنظام التشغيل لينكس مفتوح المصدر، إلى أن نجاح المبادرة يعتمد على مزيج من الموارد والخبرات وما يسميه "رشة سحرية" من الشركات ذاتها التي تسعى المبادرة إلى تحديها.
مجموعة البيانات، التي تتضمن مليون كتاب تم مسحها ضوئيًا من خلالجوجل ويرى البعض أن برنامج "كتاب جوجل" بمثابة كبسولة زمنية رقمية من الأيام الأولى لمشروع جوجل الطموح لمسح كل كتاب - وهو الهدف الذي بدا في السابق أكثر غرابة من كونه ديستوبيًا.
وفي حين يشعر ليبيرت بالتفاؤل بشأن إمكانات مجموعة البيانات، ويرى أنها مورد قيم لكل من الشركات الناشئة والشركات الكبرى على حد سواء، فإن المنتقدين مثل فودزيلا ينظرون إليها باعتبارها طريقة خفية للاعبين الكبار للحفاظ على ميزة في سباق الذكاء الاصطناعي التوليدي.
وقد أدى إطلاق ChatGPT في نوفمبر 2022 إلى تحفيز الجهود العالمية لتطوير نماذج مماثلة للذكاء الاصطناعي، مما أدى إلى خلق طلب متزايد على البيانات لتحسين هذه الأنظمة.
ومع ذلك، أثار هذا الجوع للبيانات مخاوف قانونية، حيث رفعت دور نشر كبرى مثل وول ستريت جورنال ونيويورك تايمز دعاوى قضائية ضدها.OpenAI والارتباك بسبب استخدام بياناتهم دون موافقتهم.
مع تسارع وتيرة تطوير الذكاء الاصطناعي، يظل التوازن بين الوصول المفتوح وحقوق الملكية الفكرية قضية حاسمة ومثيرة للجدل.