أداة ذكاء اصطناعي من مايكروسفت تُخرج موناليزا عن وقارها

ميدار.نت - كاليفورنيا
ذكاء اصطناعي
مايكروسوفت
الموناليزا
20 أبريل 2024
Cover

ميدار.نت - كاليفورنيا

هل تخيلتم يوماً رؤية الموناليزا وهي تتحدث أو تغني، خارجة عن وقارها الذي احتفظت به لقرون؟ إن كان الجواب نعم أو لا، ففي الحقيقة الأمر بات ممكناً بفضل برنامج "فازا 1" (vasa 1). الجديد من مايكروسوفت.

وأعلنت الشركة الأمريكية الضخمة عن نموذج جديد للذكاء الاصطناعي يمكنه توليد مقاطع فيديو واقعية للغاية لوجوه بشرية تتحدث وتحرك رأسها لتبدو طبيعية.

وادعت الشركة أن النموذج قادر على توليد مقاطع فيديو بدقة قدرها 512×512 بكسل بمعدل يصل إلى 40 إطاراً في الثانية، كما أن مقاطع الفيديو هذه تحتوي حركات الشفاه المتزامنة لتتناسب مع الصوت.

 

خطورة التطبيق

ولا تنوي "مايكروسوفت" إطلاق منتج أو واجهة برمجة تطبيقات تستفيد من نموذج "فازا 1" نظراً إلى الخطر الواضح المتمثل في توليد التزييف العميق من هذه التكنولوجيا، وقالت: "طالما اننا غير متأكدين من أنّ الأداة ستُستخدم بشكل مسؤول بحسب القوانين المعمول بها".

وأشارت الشركة إلى أن "هدف الأداة لا يتمثل في إنشاء محتوى بقصد التضليل أو الخداع"، لافتة إلى أنّ "الاداة، وعلى غرار تقنيات إنشاء محتوى أخرى، قد تُستخدم لأهداف مسيئة وانتحال صفة أيّ كان".

ويوفر نموذج توليد الفيديو بتقنية الذكاء الاصطناعي تحكماً دقيقاً للمستخدم في جوانب مختلفة من الفيديو، مثل الاتجاه الرئيسي لنظرة العين ومسافة الرأس والمزيد، وتساعد هذه العناصر في التحكم في وضعية الرأس الثلاثية الأبعاد وديناميكيات الوجه، ما يساعد في تعديل الإخراج وفقاً لتوجيهات المستخدم.

وبرأي مايكروسوفت، ستفيد هذه الأداة في تعزيز المساواة بمجال التعليم، ومساعدة مَن يعانون صعوبات في التواصل، وتوفير الدعم العلاجي لمَن يحتاجونه"، تبرر العمل عليها.

ويمكن استخدام الأداة لتحريك الشخصيات في أفلام الرسوم المتحركة، مما يمنح الشخصيات إحساسًا أكثر واقعية مع تعبيرات الوجه الطبيعية وحركات الرأس، كما يمكن استخدامها بنفس الطريقة في ألعاب الفيديو.

في المستقبل، يمكن استخدامها في الأفلام أو المسلسلات الواقعية للغاية التي تم إنشاؤها بواسطة الذكاء الاصطناعي حيث يمكن إنشاء الشخصيات من مولدات الصور ويمكن تحريكها بواسطة VASA-1، وقد لا يشعر الجمهور حتى أن الشخصيات ليست بشرًا.

ويدعم نموذج الذكاء الاصطناعي توليد الفيديو عبر الإنترنت مع زمن تأخر لا يكاد يذكر، وقدم "فازا 1" ما يصل إلى دقيقة واحدة من مقاطع الفيديو بجودة عالية من خلال صورة ثابتة واحدة.

كما أن نموذج الذكاء الاصطناعي قادر أيضاً على توليد مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام غير الإنكليزي.