وتم تعليم شبكة "Speech2Face " على أساس ملايين مقاطع فيديو تحتوي على أصوات المستخدمين. وتم تقسيم كل مقطع إلى قسم صوتي وقسم فيديو. أما الخوارزمية فانقسمت إلى بضعة أقسام يأخذ أحدها كل مميزات وجه الإنسان من قسم الفيديو ويحاول القسم الآخر استخراج صورة طيفية لكلام الإنسان نفسه الذي يظهر في قسم الفيديو.
ويعتمد الأسلوب الذي تتبعه شبكة خلايا الأعصاب الاصطناعية 3 مؤشرات ديموغرافية للإنسان وهي الجنس والسن والعرق.
وأصبح بمقدور شبكة خلايا الأعصاب الاصطناعية أن تميز بسهولة بين البشر ذوي الملامح الآسيوية والأوروبية. لكنها لا تزال تواجه مشاكل في تحديد سن الإنسان. وترتكب أحيانا أخطاء تقدر بـ 10 أعوام.
وأشار العلماء إلى أن المهم في شبكة " Speech2Face " هو ليس استحداث نسخة دقيقة لصورة الإنسان بل إبراز بعض المواصفات المميزة فيها.
المصدر: سلاح روسيا