تكنولوجيا تزامن الشفاه جديدة تقوم بتحويل مقاطع الصوت إلى فيديو واقعي بشكل خطير!‎

3 سبتمبر، 2021

أنا لا أقول أنك يجب أن تخاف من المستقبل، ولكن … حسنا، هذا بالضبط ما أقوله. فقد وضع مجموعة من الباحثين من جامعة واشنطن طريقة لأخذ مقطع صوتي من شخص يتحدث وتوليد فيديو شفاه متزامنة Lip-syncing واقعي بشكل مخيف معها.

فعلا ستنبهرون، بمجرد الضغط على زر تشغيل الفيديو التجريبي أدناه والذي يضم الرئيس الأمريكي السابق باراك أوباما. وتشرح Ira Kemelmacher-Shlizerman، وهي أستاذة مساعدة في كلية Paul G. Allen لعلوم الكمبيوتر والهندسة، كيف يمكن لهذه التكنولوجيا أن تكون في متناول اليدين:
“يتوفر تحويل الصوت إلى الفيديو الواقعي على تطبيقات عملية مثل تحسين مؤتمرات الفيديو للاجتماعات، فضلا عن مستقبلية منها مثل أن تكون قادرة على عقد محادثة مع شخصية تاريخية في الواقع الإفتراضي من خلال خلق صور فقط من الصوت. هذا نوع من التقدّم المفاجيء للمعرفة والذي من شأنه أن يساعد على تمكين تلك الخطوات المقبلة”.
يمكنك أن تتخيل أنه يمكن أيضا أن تُستخدم هذه التكنولوجيا في الألعاب وتسهيل تحريك الشخصيات 3D في الأفلام والبرامج التلفزيونية. المشكلة هي أنه يمكن أن تُستخدَم أيضا لخلق مقاطع بمعلومات كاذبة، سواء كان ذلك لتضليل الناس مع الرسائل السياسية على الانترنت أو تزوير وجود وكلام أحد ما لأدلة الفيديو في التحقيقات الجنائية.
ومن الجدير بالذكر أن هذا ليس بالأمر السهل: لتحقيق النتائج التي تراها أعلاه، قام الباحثون أولا بتدريب شبكة عصبية مع عدة ساعات من فيديو لأوباما يتحدث، لكي تستطيع أن تتعلم ترجمة الأصوات المختلفة إلى أشكال الفم. بعد ذلك، طبقوا العديد من تقنيات تركيب الفيديو لتركيب ومزج أشكال الفم و الأسنان على فيديو منفصل.
إذا كان بدا لك هذا المشروع مألوفا، قد يكون ذلك لأنك تفكر في Face2Face، التي تم تطويرها من قبل Matthias Nießner في Stanford وتتيح لك تحريك وجوه الناس في الفيديو واقعيا من خلال التقاط تعبيرات الوجه باستخدام كاميرا ويب فقط.
وحتى الآن، يعمل النظام بشكل جيد مع الصوت والفيديو فقط من فرد واحد في وقت واحد، ويتطلب عدة ساعات من المواد لتعلم الأنماط منها. ولكن الفريق يأمل في تقليل تلك التبعيات مع مرور الوقت.
وسيقدّم فريق البحث نظرية مشروعهم في SIGGRAPH 2017 الشهر المقبل.

3 سبتمبر، 2021

مقالات ذات صلة