عند الحديث حول توليد مقاطع الفيديو باستخدام الذكاء الاصطناعي يمكننا القول بأنّه لا يزال أمامنا طريق طويل من العمل والتطوير والتحسين على البرمجيات الموجودة وذلك لأنّه وفي حال كنت ترغب بتوليد مقطع Deepfake على سبيل المثال وهو مقطع فيديو مزيّف لأحد المستخدمين فأنت بحاجة إلى مجموعة من الموارد مثل الصورة وزاوية الرأس والصوت وغير ذلك الكثير من التفاصيل، ولكن تمكّنت شركة Microsoft من جعل الأمر أبسط قليلاً من خلال تطوير نموذج ذكي يسمح بتوليد محاكاة صوتية مشابهة للأصلية بوجود 3 ثواني فقط من صوت المستخدم أي في حال كنت تملك 3 ثواني من صوت أحد المستخدمين فإنّك ستتمكّن من إنشاء مقاطع صوتية باستخدام تطبيقات الذكاء الصنعي بفضل هذا النموذج الذي يمكنه توليد صوت مشابه للصوت الأصلي.
تسمّى الأداة الجديدة VALL-E وهي مبنية بالاعتماد على تقنية ضغط الصوت EnCodec التي طوّرتها شركة Meta خلال العام الفائت والتي تُستَخدم لضغط الصوت بطريقة أفضل باستخدام بيانات أقل دون خسارة ملحوظة في الجودة واستخدمت Meta هذه التقنية كوسيلة لتحسين جودة المكالمات الصوتية ولكن Microsoft تستخدم هذه التقنية بطريقة أخرى وهي توليد مقاطع صوتية شبيهة للصوت الأصل باستخدام مقطع صوتي قصير جداً.
إن ما يجعل هذه التقنية مميّزة هو الحجم المطلوب للعيّنة الصوتية وذلك لأنّ توليد صوت مشابه باستخدام الذكاء الاصطناعي يتطلّب الجلوس ساعات طويلة في غرف التسجيل الموسيقي للحصول على عيّنات بجودة عالية جداً لذا فإنّ وصول الشركة إلى تقنية كهذه هو أمر مثير للدهشة بالفعل، ولكن بالطبع فإنّ أداء هذه التقنية ليس مذهلاً فعلاً فهناك بعض العيوب وتقتصر هذه الأداة على اللغة الإنكليزية فقط في الوقت الحالي ولكن من المتوقّع أن يتحسّن أداء هذه البرمجية بشكل تدريجي مع استخدامها من قبل المزيد من المستخدمين في المستقبل.