NVIDIA показала технологію, що створює відео на основі текстового запиту
Дослідницька команда NVIDIA представила нову AI-модель для генерування відео на основі текстових запитів користувачів. Наприклад, можна ввести запит «Плюшевий ведмідь грає на електрогітарі, висока роздільна здатність, 4k» і отримати таке відео:
Детальніше про технологію
Генератор відео використовує Stable Diffusion і поки що може синтезувати короткі ролики на 4,7 секунди. Вони мають загалом 113 кадрів, швидкість 24 FPS і роздільну здатність до 1280×2048.
Для цієї технології розробники застосовують Latent Diffusion Models (LDM). Такий підхід дозволяє синтезувати високоякісні зображення і не витрачати багато обчислювальних потужностей, адже модель тренується в стиснутому низьковимірному латентному просторі.
«Спочатку ми тренуємо LDM (Latent Diffusion Model) винятково на зображеннях, а потім ми перетворюємо генератор зображень на відеогенератор: додаємо часовий вимір до
LDM-моделі та точно налаштовуємо послідовність закодованих зображень, тобто відео», — пояснюють розробники.
Детальніше ця технологія описана на сайті NVIDIA, де компанія показала приклади згенерованих відео.Поки що компанія не викладає інструмент у відкритий доступ.
Приклади генерування відео з тексту
Також розробники експериментували й створювали довші відео — на 7,3 секунди (175 зі швидкістю 24 FPS). На них помітне часткове погіршення якості.
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів