Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

STIV: Масштабируемая генерация видео с учетом текста и изображений

Генерация видео — это область машинного обучения, которая за последние годы достигла значительного прогресса благодаря использованию различных архитектур и методов, таких как диффузионные модели и трансформеры. Однако, несмотря на достижения, существует настоятельная необходимость в создании систем, которые могут эффективно и последовательно генерировать видео, учитывая текстовые и визуальные подсказки. В этой статье мы рассмотрим новый подход к генерации видео, названный STIV (Scalable Text and Image Conditioned Video Generation), который объединяет текстовые и изображенческие условия в единую архитектуру.

Архитектура STIV

STIV представляет собой интеграцию текстовых и изображенческих условий в архитектуру диффузионного трансформера (Diffusion Transformer, DiT). Основная идея заключается в замене первого кадра видео с зашумленным латентным представлением на латентное представление изображения, что позволяет модели генерировать видео, основываясь как на текстовых подсказках, так и на визуальных элементах. Эта архитектура позволяет решать задачи генерации видео как из текста (T2V), так и из текста и изображения (TI2V) одновременно.

Основные компоненты

  1. Замена кадра: В процессе обучения первый кадр зашумленного видео заменяется на ненастоящее изображение, что позволяет модели лучше учитывать визуальные условия. Это решение помогает улучшить качество генерируемых видео и их соответствие текстовым подсказкам.

  2. Совместное условное управление: В STIV используется метод совместного условного управления изображениями и текстами (Joint Image-Text Classifier-Free Guidance, JIT-CFG), который позволяет модели учитывать оба типа условий при генерации видео.

  3. Факторизованное пространственно-временное внимание: Эта техника позволяет модели эффективно обрабатывать видео, разделяя внимание на пространственные и временные аспекты, что значительно улучшает производительность и уменьшает потребление памяти.

Эффективность и производительность

STIV была протестирована на различных задачах, включая T2V и TI2V, и продемонстрировала выдающиеся результаты. Модель с 8,7 миллиарда параметров достигла 83,1 балла на VBench T2V, что превосходит как открытые, так и закрытые модели, такие как CogVideoX и Gen-3. На задаче I2V модель также показала рекордный результат в 90,1 балла.

Сравнение с другими моделями

При сравнении с существующими моделями, STIV продемонстрировала преимущества в качестве видео и семантической согласованности, что делает ее одним из наиболее эффективных решений в области генерации видео на сегодняшний день.

Применение STIV

STIV не ограничивается только задачами T2V и TI2V. Модель может быть легко адаптирована для различных приложений, таких как:

  • Предсказание видео: Генерация следующих кадров на основе предыдущих.
  • Интерполяция кадров: Создание промежуточных кадров между заданными.
  • Генерация многопроекционных видео: Создание видео с различных углов зрения.
  • Долговременная генерация видео: Создание длинных видеороликов, состоящих из нескольких ключевых кадров и промежуточных кадров.

Обучение и данные

Обучение STIV включает в себя использование большого количества высококачественных видеоданных, что критически важно для достижения хороших результатов. Авторы описывают создание эффективного пайплайна для обработки данных, который включает в себя:

  • Предобработку видео: Выявление и устранение шумов и артефактов.
  • Капширование: Создание текстовых описаний для видео, что позволяет улучшить качество генерации.
  • Фильтрация данных: Удаление низкокачественных видео для повышения общего качества обучающего набора.

Заключение

STIV представляет собой многообещающий шаг вперед в области генерации видео, объединяя возможности текстовой и визуальной генерации в единую архитектуру. С помощью инновационных методов, таких как замена кадров и совместное управление условиями, модель достигает выдающихся результатов и демонстрирует потенциал для применения в различных областях. Это открывает новые горизонты для исследований в области генерации видео и предоставляет мощный инструмент для разработчиков и исследователей.

С учетом всех этих факторов, STIV может значительно ускорить развитие технологий генерации видео и расширить их применение в реальной жизни.