كشفت شركة التكنولوجيا الصينية ShengShu-AI وجامعة تسينغهوا مطلع الأسبوع عن نموذج Vidu للذكاء الاصطناعي لتحويل النص إلى فيديو، والذي يقال إنه الأول في الصين الذي يضاهي Sora الذي أطلقته مؤخراً شركة أوبن آي.
وتم إطلاق Vidu في منتدى Zhongguancun الجاري في بكين، ويمكنه إنشاء مقطع فيديو مدته 16 ثانية بدقة 1080 بكسل بنقرة واحدة.
وقال المطورون إنه مبني على بنية نموذج التحول البصري التي تم تطويرها ذاتيًا والتي تسمى Universal Vision Transformer (U-ViT) والتي تدمج نموذجين للذكاء الاصطناعي لتحويل النص إلى فيديو من Diffusion وTransformer.
جاء نموذج تحويل النص إلى فيديو بالذكاء الاصطناعي بعد حوالي شهرين فقط من إطلاق Sora، الذي طورته شركة OpenAI والتي يقع مقرها في الولايات المتحدة، وسط ضجة كبيرة في جميع أنحاء العالم.
وقال تشو جون، نائب عميد معهد الذكاء الاصطناعي بجامعة تسينغهوا وكبير العلماء في جامعة شينغشو: “بعد إطلاق سورا، وجدنا أنه يتماشى بشكل وثيق مع خريطة الطريق التقنية لدينا، مما حفزنا أكثر على تطوير أبحاثنا بإصرار”.
وتم اقتراح التكنولوجيا الأساسية لـ U-ViT لأول مرة من قبل فريق بحث Vidu في سبتمبر 2022م، قبل بنية نموذج Sora لـ DiT – التنوع في التحول، وهي أول بنية نموذجية للتحول البصري في العالم تجمع بين مزايا الانتشار والمحول، وفقًا لتقارير وسائل الإعلام.
وخلال عرض حي يوم السبت المنصرم، يستطيع Vidu محاكاة العالم المادي الحقيقي وإنشاء مشاهد بتفاصيل معقدة تتماشى مع القوانين الفيزيائية الحقيقية، مثل تأثيرات الضوء والظل المعقولة وتعبيرات الوجه الدقيقة.
ويمكنه أيضًا إنشاء لقطات ديناميكية معقدة، بدلاً من اللقطات الثابتة.
قد يعجبك ايضا