Свежая выжимка ml и AI статей - каждый день
Генерация видео — это область машинного обучения, которая за последние годы достигла значительного прогресса благодаря использованию различных архитектур и методов, таких как диффузионные модели и трансформеры. Однако, несмотря на достижения, существует настоятельная необходимость в создании систем, которые могут эффективно и последовательно генерировать видео, учитывая текстовые и визуальные подсказки. В этой статье мы рассмотрим новый подход к генерации видео, названный STIV (Scalable Text and Image Conditioned Video Generation), который объединяет текстовые и изображенческие условия в единую архитектуру.
STIV представляет собой интеграцию текстовых и изображенческих условий в архитектуру диффузионного трансформера (Diffusion Transformer, DiT). Основная идея заключается в замене первого кадра видео с зашумленным латентным представлением на латентное представление изображения, что позволяет модели генерировать видео, основываясь как на текстовых подсказках, так и на визуальных элементах. Эта архитектура позволяет решать задачи генерации видео как из текста (T2V), так и из текста и изображения (TI2V) одновременно.
Замена кадра: В процессе обучения первый кадр зашумленного видео заменяется на ненастоящее изображение, что позволяет модели лучше учитывать визуальные условия. Это решение помогает улучшить качество генерируемых видео и их соответствие текстовым подсказкам.
Совместное условное управление: В STIV используется метод совместного условного управления изображениями и текстами (Joint Image-Text Classifier-Free Guidance, JIT-CFG), который позволяет модели учитывать оба типа условий при генерации видео.
Факторизованное пространственно-временное внимание: Эта техника позволяет модели эффективно обрабатывать видео, разделяя внимание на пространственные и временные аспекты, что значительно улучшает производительность и уменьшает потребление памяти.
STIV была протестирована на различных задачах, включая T2V и TI2V, и продемонстрировала выдающиеся результаты. Модель с 8,7 миллиарда параметров достигла 83,1 балла на VBench T2V, что превосходит как открытые, так и закрытые модели, такие как CogVideoX и Gen-3. На задаче I2V модель также показала рекордный результат в 90,1 балла.
При сравнении с существующими моделями, STIV продемонстрировала преимущества в качестве видео и семантической согласованности, что делает ее одним из наиболее эффективных решений в области генерации видео на сегодняшний день.
STIV не ограничивается только задачами T2V и TI2V. Модель может быть легко адаптирована для различных приложений, таких как:
Обучение STIV включает в себя использование большого количества высококачественных видеоданных, что критически важно для достижения хороших результатов. Авторы описывают создание эффективного пайплайна для обработки данных, который включает в себя:
STIV представляет собой многообещающий шаг вперед в области генерации видео, объединяя возможности текстовой и визуальной генерации в единую архитектуру. С помощью инновационных методов, таких как замена кадров и совместное управление условиями, модель достигает выдающихся результатов и демонстрирует потенциал для применения в различных областях. Это открывает новые горизонты для исследований в области генерации видео и предоставляет мощный инструмент для разработчиков и исследователей.
С учетом всех этих факторов, STIV может значительно ускорить развитие технологий генерации видео и расширить их применение в реальной жизни.