fbpx
أخبار العالمالأخبار

بالذكاء الاصطناعي.. مايكروسوفت تطلق برنامج “vasa-1” لانتاج فيديو واقعي من صورة واحدة ثابتة ومقطع صوتي

كتبت: نسرين طارق

صورة ثابتة واحدة ومقطع صوتي، كافية لانتاج فيديو واقعي لأي شخص، لا حدود للذكاء الاصطناعي في توليد الصور من مجرد الوصف، ثم انتقل الى انتاج الفديوهات من الوصف، وانتهى الامر الى توليد فيديو واقعي من مجرد صورة ثابتة للشخص ومقطع صوتى يمكن محاكاة طبقات صوت الشخص لاضافة مقطع صوتى للصورة لم يقله الشخص ابدا.

تقدم شركة مايكروسوفت برنامجها الجديد VASA،  في نسخته الاولى، تعتمد فكرة عمل البرنامج الجديد على إنتاج فيديو لوجوه ناطقة واقعية تتمتع بمهارات عاطفية بصرية جذابة من خلال صورة ثابتة واحدة ومقطع صوتي للكلام، بالذكاء الاصطناعي.

النموذج الأول، VASA-1، ليس فقط قادرًا على إنتاج حركات الشفاه المتزامنة بشكل رائع مع الصوت، ولكنه أيضًا يلتقط مجموعة كبيرة من الفروق الدقيقة في الوجه وحركات الرأس الطبيعية التي تساهم في إدراك المعاني والحيوية.

من خلال تجارب مكثفة بما في ذلك التقييم على مجموعة من المقاييس الجديدة، نظهر أن أسلوب البرنامج يتفوق بشكل كبير على الأساليب السابقة بشكل شامل.

لا توفر هذه الطريقة جودة فيديو عالية مع ديناميكيات واقعية للوجه والرأس فحسب، بل تدعم أيضًا إنشاء مقاطع فيديو بحجم 512 × 512 عبر الإنترنت بمعدل يصل إلى 40 إطارًا في الثانية مع زمن انتقال لا يُذكر لبدء التشغيل.

تمتد جهود أبحاث الذكاء الاصطناعي لتحريك صورة واحدة لشخص إلى بضع سنوات، ولكن في الآونة الأخيرة، عمل الباحثون على مزامنة مقطع فيديو تم إنشاؤه تلقائيًا مع مقطع صوتي.

تدرب على مقاطع اليوتيوب

قام باحثو مايكروسوفت بتدريب VASA-1 على مجموعة بيانات VoxCeleb2 التي أنشأها ثلاثة باحثين من جامعة أكسفورد في عام 2018.

أكثر من مليون عبارة لـ 6112 من المشاهير”، وفقًا لموقع VoxCeleb2، المستخرج من مقاطع الفيديو التي تم تحميلها على موقع  YouTube

VASA-1  يمكنه إنشاء مقاطع فيديو بدقة 512 × 512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية مع الحد الأدنى من الكمون، مما يعني أنه من الممكن استخدامه لتطبيقات الوقت الفعلي مثل مؤتمرات الفيديو.

ولعرض النموذج، أنشأت Microsoft صفحة بحث VASA-1 تعرض العديد من نماذج مقاطع الفيديو للأداة أثناء العمل، بما في ذلك الأشخاص الذين يغنون ويتحدثون بشكل متزامن مع المسارات الصوتية المسجلة مسبقًا.

 وذلك لتوضح كيف يمكن التحكم في النموذج للتعبير عن حالات مزاجية مختلفة أو تغيير نظرة عينه.

تشمل الأمثلة أيضًا بعض الأجيال الأكثر خيالية، مثل غناء الموناليزا لموسيقى الراب على مقطع صوتي لآن هاثاواي وهي تؤدي أغنية “Paparazzi” على كونان أوبراين.

تستكشف مايكروسوفت توليد المهارات العاطفية البصرية للشخصيات الافتراضية والتفاعلية، وليس انتحال شخصية أي شخص في العالم الحقيقي.

هذا مجرد عرض بحثي ولا توجد خطة لإصدار منتج فعلي حتى الان.

في الوقت الحالي، لا يزال الفيديو الذي تم إنشاؤه غير مثالي في بعض النواحي، ولكنه قد يكون مقنعًا إلى حد ما بالنسبة لبعض الأشخاص الذين ليس لهم علاقة بالذكاء الاصطناعي وتقنياته.

ويقول الباحثون إنهم يدركون ذلك، ولهذا السبب لم ينشروا الكود الذي يحرك النموذج بشكل علني.

وكتب الباحثون: “نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين، ونحن مهتمون بتطبيق أسلوبنا لتعزيز اكتشاف التزوير”. “في الوقت الحالي، لا تزال مقاطع الفيديو التي تم إنشاؤها بهذه الطريقة تحتوي على قطع أثرية يمكن التعرف عليها، ويظهر التحليل الرقمي أنه لا تزال هناك فجوة لتحقيق صحة مقاطع الفيديو الحقيقية.”

VASA-1 مجرد عرض بحثي، لكن Microsoft ليست الشركة الوحيدة التي تعمل على تطوير تقنية مماثلة.

 إذا كان التاريخ الحديث للذكاء الاصطناعي التوليدي يمكن الاسترشاد به، فمن المحتمل أن تكون مسألة وقت فقط قبل أن تصبح التكنولوجيا المماثلة مفتوحة المصدر ومتاحة مجانًا – ومن المرجح جدًا أن تستمر في التحسن من حيث الواقعية بمرور الوقت.

مقالات ذات صلة

زر الذهاب إلى الأعلى