وفقًا لكوينتيليغراف: تم سحب LAION-5B، وهي مجموعة بيانات كبيرة للذكاء الاصطناعي (AI) تستخدم في تدريب العديد من مولدات تحويل النص إلى صورة المستخدمة على نطاق واسع، من قبل منشئها بعد أن كشفت دراسة استقصائية أنها تؤوي آلاف الحالات المشتبه فيها للاعتداء الجنسي على الأطفال المواد (CSAM). LAION، الشبكة المفتوحة واسعة النطاق للذكاء الاصطناعي ومقرها في ألمانيا، هي منظمة غير ربحية معروفة بإنشاء نماذج ومجموعات بيانات مفتوحة المصدر للذكاء الاصطناعي والتي تعمل بمثابة العمود الفقري للعديد من نماذج تحويل النص إلى صورة الشهيرة.
كشف الباحثون في مركز السياسات السيبرانية التابع لمرصد الإنترنت في ستانفورد، في تقريرهم المنشور في 20 ديسمبر، عن وجود 3226 حالة مزعومة لـ CSAM في مجموعة بيانات LAION-5B. تم التحقق من العديد من الحالات المشبوهة على أنها CSAM من قبل أطراف مستقلة، كما أبرزها ديفيد ثيل، مهندس البيانات الكبيرة وكبير التقنيين في مركز ستانفورد للسياسات الإلكترونية.
وأشار ثيل إلى أنه على الرغم من أن حالات CSAM المكتشفة في مجموعة البيانات قد لا تغير بشكل جذري نتائج النماذج المدربة عليها، فمن المرجح أن تمارس بعض التأثير. علاوة على ذلك، فإن تكرار حالات الاعتداء الجنسي على الأطفال المتطابقة يجلب طبقة إضافية من القلق بسبب تعزيزه لصور ضحايا محددين.
تم تقديم مجموعة بيانات LAION-5B في مارس 2022، وتتكون من 5.85 مليار زوج من الصور والنصوص. ردًا على النتائج، أكدت LAION في بيان لها أنها أزالت مجموعات البيانات المثيرة للجدل كإجراء احترازي، وتشمل هذه البيانات كلا من LAION-5B وLAION-400M. ستقوم المنظمة بإعادة نشر مجموعات البيانات بمجرد التأكد من أنها آمنة.