STIV: Масштабируемая генерация видео с учетом текста и изображений

Генерация видео — это область машинного обучения, которая за последние годы достигла значительного прогресса благодаря использованию различных архитектур и методов, таких как диффузионные модели и трансформеры. Однако, несмотря на достижения, существует настоятельная необходимость в создании систем, которые могут эффективно и последовательно генерировать видео, учитывая текстовые и визуальные подсказки. В этой статье мы рассмотрим новый подход к генерации видео, названный STIV (Scalable Text and Image Conditioned Video Generation), который объединяет текстовые и изображенческие условия в единую архитектуру.

Архитектура STIV

STIV представляет собой интеграцию текстовых и изображенческих условий в архитектуру диффузионного трансформера (Diffusion Transformer, DiT). Основная идея заключается в замене первого кадра видео с зашумленным латентным представлением на латентное представление изображения, что позволяет модели генерировать видео, основываясь как на текстовых подсказках, так и на визуальных элементах. Эта архитектура позволяет решать задачи генерации видео как из текста (T2V), так и из текста и изображения (TI2V) одновременно.

Основные компоненты

Замена кадра: В процессе обучения первый кадр зашумленного видео заменяется на ненастоящее изображение, что позволяет модели лучше учитывать визуальные условия. Это решение помогает улучшить качество генерируемых видео и их соответствие текстовым подсказкам.
Совместное условное управление: В STIV используется метод совместного условного управления изображениями и текстами (Joint Image-Text Classifier-Free Guidance, JIT-CFG), который позволяет модели учитывать оба типа условий при генерации видео.
Факторизованное пространственно-временное внимание: Эта техника позволяет модели эффективно обрабатывать видео, разделяя внимание на пространственные и временные аспекты, что значительно улучшает производительность и уменьшает потребление памяти.

Эффективность и производительность

STIV была протестирована на различных задачах, включая T2V и TI2V, и продемонстрировала выдающиеся результаты. Модель с 8,7 миллиарда параметров достигла 83,1 балла на VBench T2V, что превосходит как открытые, так и закрытые модели, такие как CogVideoX и Gen-3. На задаче I2V модель также показала рекордный результат в 90,1 балла.

Сравнение с другими моделями

При сравнении с существующими моделями, STIV продемонстрировала преимущества в качестве видео и семантической согласованности, что делает ее одним из наиболее эффективных решений в области генерации видео на сегодняшний день.

Применение STIV

STIV не ограничивается только задачами T2V и TI2V. Модель может быть легко адаптирована для различных приложений, таких как:

Предсказание видео: Генерация следующих кадров на основе предыдущих.
Интерполяция кадров: Создание промежуточных кадров между заданными.
Генерация многопроекционных видео: Создание видео с различных углов зрения.
Долговременная генерация видео: Создание длинных видеороликов, состоящих из нескольких ключевых кадров и промежуточных кадров.

Обучение и данные

Обучение STIV включает в себя использование большого количества высококачественных видеоданных, что критически важно для достижения хороших результатов. Авторы описывают создание эффективного пайплайна для обработки данных, который включает в себя:

Предобработку видео: Выявление и устранение шумов и артефактов.
Капширование: Создание текстовых описаний для видео, что позволяет улучшить качество генерации.
Фильтрация данных: Удаление низкокачественных видео для повышения общего качества обучающего набора.

Заключение

STIV представляет собой многообещающий шаг вперед в области генерации видео, объединяя возможности текстовой и визуальной генерации в единую архитектуру. С помощью инновационных методов, таких как замена кадров и совместное управление условиями, модель достигает выдающихся результатов и демонстрирует потенциал для применения в различных областях. Это открывает новые горизонты для исследований в области генерации видео и предоставляет мощный инструмент для разработчиков и исследователей.

С учетом всех этих факторов, STIV может значительно ускорить развитие технологий генерации видео и расширить их применение в реальной жизни.

Статья на arxiv Оригинал pdf performance generation model

Ай Дайджест