وعثر مرصد ستانفورد للإنترنت على أكثر من 3200 صورة للاعتداء الجنسي على الأطفال في قاعدة بيانات الذكاء الاصطناعي العملاقة LAION، وهو فهرس للصور والتسميات التوضيحية عبر الإنترنت استُخدم لتدريب صنّاع صور الذكاء الاصطناعي مثل Stable Diffusion.
وعملت مجموعة المراقبة مع المركز الكندي لحماية الطفل وغيره من الجمعيات الخيرية المناهضة للإساءة، لتحديد المواد غير القانونية والإبلاغ عن روابط الصور الأصلية إلى جهات إنفاذ القانون. وتم التأكد من أن أكثر من 1000 صورة من الصور المشتبه بها تشمل مواد اعتداء جنسي على الأطفال.
وكتب الباحثون: "وجدنا أن امتلاك مجموعة بيانات LAION-5B المأهولة حتى أواخر عام 2023، يعني حيازة آلاف الصور غير القانونية".
وعشية إصدار تقرير مرصد ستانفورد للإنترنت يوم الأربعاء، قالت LAION إنها أزالت مجموعات البيانات الخاصة بها مؤقتا.
وقالت LAION، التي تمثل الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق غير الربحية، في بيان لها: "إن لديها سياسة عدم التسامح مطلقا مع المحتوى غير القانوني، وفي ظل الحذر الشديد، قمنا بإزالة مجموعات بيانات LAION للتأكد من أنها آمنة قبل إعادة نشرها".
وفي حين أن الصور لا تمثل سوى جزء صغير من مؤشر LAION الذي يبلغ حوالي 5.8 مليار صورة، تقول مجموعة ستانفورد إنها ربما تؤثر على قدرة أدوات الذكاء الاصطناعي على توليد مخرجات ضارة وتعزيز الإساءة السابقة للضحايا الحقيقيين.
ويقول الباحثون إن هذه الصور نفسها جعلت من السهل على أنظمة الذكاء الاصطناعي إنتاج صور واقعية وصريحة لأطفال مزيفين، بالإضافة إلى تحويل صور وسائل التواصل الاجتماعي لمراهقين حقيقيين يرتدون ملابس كاملة، إلى عراة، الأمر الذي أثار قلق المدارس وجهات إنفاذ القانون في جميع أنحاء العالم.
وحتى وقت قريب، اعتقد الباحثون في مجال مكافحة إساءة الاستخدام، أن الطريقة الوحيدة التي تنتج بها بعض أدوات الذكاء الاصطناعي غير الخاضعة للرقابة صورا مسيئة للأطفال، هي من خلال الجمع بين ما تعلمته من فئتين منفصلتين من الصور عبر الإنترنت: المواد الإباحية للبالغين والصور الحميدة للأطفال.
وقال ديفيد ثيل، كبير خبراء التكنولوجيا في مرصد ستانفورد للإنترنت، والذي كتب التقرير، إن هذه مشكلة ليست سهلة الإصلاح، وتعود جذورها إلى العديد من مشاريع الذكاء الاصطناعي التوليدية التي "تم طرحها بشكل فعال في السوق" وإتاحتها على نطاق واسع، لأن هذا المجال تنافسي للغاية.
يذكر أن LAION من بنات أفكار الباحث والمعلم الألماني، كريستوف شومان، الذي قال في وقت سابق من هذا العام إن جزءا من السبب وراء جعل قاعدة البيانات المرئية الضخمة هذه متاحة للجمهور، هو ضمان عدم التحكم في مستقبل تطوير الذكاء الاصطناعي من قبل شركات قوية.
المصدر: الغارديان