NVIDIA показала технологію, що створює відео на основі текстового запиту

Дослідницька команда NVIDIA представила нову AI-модель для генерування відео на основі текстових запитів користувачів. Наприклад, можна ввести запит «Плюшевий ведмідь грає на електрогітарі, висока роздільна здатність, 4k» і отримати таке відео:

Детальніше про технологію

Генератор відео використовує Stable Diffusion і поки що може синтезувати короткі ролики на 4,7 секунди. Вони мають загалом 113 кадрів, швидкість 24 FPS і роздільну здатність до 1280×2048.

Для цієї технології розробники застосовують Latent Diffusion Models (LDM). Такий підхід дозволяє синтезувати високоякісні зображення і не витрачати багато обчислювальних потужностей, адже модель тренується в стиснутому низьковимірному латентному просторі.

«Спочатку ми тренуємо LDM (Latent Diffusion Model) винятково на зображеннях, а потім ми перетворюємо генератор зображень на відеогенератор: додаємо часовий вимір до LDM-моделі та точно налаштовуємо послідовність закодованих зображень, тобто відео», — пояснюють розробники.

Детальніше ця технологія описана на сайті NVIDIA, де компанія показала приклади згенерованих відео.Поки що компанія не викладає інструмент у відкритий доступ.

Приклади генерування відео з тексту


Також розробники експериментували й створювали довші відео — на 7,3 секунди (175 зі швидкістю 24 FPS). На них помітне часткове погіршення якості.

Підписуйтеся на Telegram-канал @gamedev_dou, щоб не пропустити найважливіші статті і новини

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn


Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі