جوجل تحول الصورة الثابتة الواحدة إلى فيديو متحرك

ميدار.نت - كاليفورنيا
ذكاء اصطناعي
جوجل
19 مارس 2024
Cover

ميدار.نت - كاليفورنيا

"من صورة ثابتة واحدة يمكن توليد مقاطع فيديو واقعية لأشخاص يتحدثون ويتحركون ويظهرون التعبيرات الجسدية والإيماءات"، هذا ما يقدمه “فلوجر” VLOGGER.، وهو نموذج ذكاء اصطناعي تعمل عليه جوجل

وتعتمد تلك التقنية على نماذج تعلم الآلة المتقدمة لإنتاج كثير من اللقطات الواقعية وتجميعها معًا في مقطع فيديو.

وتفتح تلك التقنية الباب لعدد كبير من التطبيقات المحتملة لها، ووفقًا للورقة البحثية التي نشرها الباحثون في قطاع جوجل للأبحاث، يمكن لنموذج الذكاء الاصطناعي الجديد الاعتماد على مدخلات تتضمن صورة لشخص ما مع مقطع صوتي لإنتاج مقطع فيديو يُظهر الشخص وهو يتحدث بالصوت نفسه مع تعبيرات الوجه وإيماءات الرأس واليد الملائمة.

ورغم أن مقاطع الفيديو التي نشرها باحثو جوجل ليست مثالية وبها بعض الأخطاء، وقصيرة نسبيًا ولها خلفية ثابتة، ولا يتحرك الأفراد فيها في بيئة ثلاثية الأبعاد، لكنها تمثل طفرة كبيرة في تحريك الصور الثابتة، ولكنها أيضاً تثير المخاوف بشأن إساءة استخدامها للتضليل وإنتاج مقاطع فيديو على نحو يشبه آليات التزييف العميق.

نماذج الانتشار

واعتمد الباحثون على نوع جديد من نماذج الذكاء الاصطناعي تُسمى نماذج الانتشار Diffusion Models، التي أظهرت أداءً مميزًا في توليد الصور من النصوص، وقد وسع فريق الباحثين استخدامها ليشمل توليد مقاطع الفيديو مع التدريب على مجموعة ضخمة من البيانات، شملت ما يزيد على 800 ألف هوية مختلفة و 2200 ساعة من مقاطع الفيديو، مما أتاح لنموذج VLOGGER تعلم إنشاء مقاطع فيديو لأشخاص من أعراق وأعمار وملابس وأوضاع وبيئات متنوعة دون تحيز.

ويمكن استخدام نموذج VLOGGER في العديد من الاستخدامات، ومنها دبلجة مقاطع الفيديو تلقائيًا عبر تبديل المسار الصوتي، وملء الإطارات المفقودة في مقاطع الفيديو، وإنشاء صور رمزية واقعية للألعاب والواقع الافتراضي، وإنشاء ربوتوتات دردشة يمكنها التفاعل مع المستخدمين على نحو أفضل. ومع ذلك، فإن احتمالية إساءة استخدام النموذج ما تزال قائمة.

 

 

تجربة صينية

تمكن باحثون من معهد الحوسبة الذكية بالصين، من تحويل المسار الصوتي إلى فيديو لشخص يتحدث باستخدام صورة ثابتة بعد معالجة صورة الوجه واستخدامها، لإنشاء نسخة متحركة.

ويستخدم نظام الذكاء الاصطناعي المبتكر خوارزميات التعلم العميق لتحليل مدخلات الصوت، وإنشاء حركات شفاه واقعية تتوافق مع الكلمات المنطوقة، ومن خلال الاستفادة من قوة الشبكات العصبية، يمكن للنظام مزامنة الصوت بدقة مع التمثيل المرئي، ما يؤدي إلى إنشاء فيديو سلس للشخص الذي يتحدث.