MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В последние годы модели генерации видео на основе диффузии привлекли значительное внимание благодаря своей способности создавать высококачественный и разнообразный видеоконтент. Эти модели, основанные на трансформерах, открывают новые возможности для автоматизированного и креативного синтеза видео. Одной из ключевых задач в этой области является передача движения, которая фокусируется на переносе движений из одного видео в другое, часто с использованием текстовых подсказок.

В данной статье мы представляем новый подход под названием Mixture of Score Guidance (MSG), который является первым методом передачи движения в диффузионных трансформерах. MSG предлагает теоретически обоснованный фреймворк для передачи движения, который позволяет сохранять композицию сцены и осуществлять креативные трансформации, сохраняя при этом целостность передаваемых движений.

Основные концепции

Передача движения

Передача движения подразумевает не просто замену одного объекта на другой, а требует значительных изменений в контексте окружающей среды. Например, трансформация движения автомобиля в полет самолета требует адаптации не только самого объекта, но и его взаимодействия с окружающей средой. Это важно для создания видео с движениями, которые сложно описать только текстом, такими как сложные движения камеры.

Проблемы существующих методов

Несмотря на достижения в области генерации и редактирования видео, управление движением остается сложной задачей. Существующие методы часто не справляются с более сложными задачами передачи движения, такими как трансформации с несколькими объектами или сложными движениями камеры. Эти методы могут неадекватно изменять сцену, просто заменяя один объект на другой, не учитывая изменения в окружении.

Mixture of Score Guidance (MSG)

MSG предлагает новый подход к передаче движения, основанный на реформулировании условного градиента для разложения на движение и контент. Это позволяет создать смесь потенциальных энергий, что естественным образом сохраняет композицию сцены. Метод работает непосредственно на предобученных моделях видео-диффузии без необходимости дополнительного обучения или дообучения.

Теоретические основы

Основной теоретической вклад MSG заключается в том, что он устанавливает математическую связь между смешиванием градиентов и динамикой Ланжевена. Это обеспечивает теоретические перспективы для стабильной передачи движения. В процессе экспериментов MSG продемонстрировал успешное управление различными сценариями, включая передачу движения одного объекта, нескольких объектов и сложные движения камеры.

Методология

Процесс диффузии

Диффузионный процесс можно рассматривать как высокоразмерную случайную переменную, которая постепенно преобразует распределение данных в известное приоритетное распределение через стохастическое дифференциальное уравнение. Этот процесс включает в себя градиенты, которые служат механизмом для отмены прямого процесса диффузии.

Декомпозиция градиента

Градиент функции может быть разделен на компоненты движения и контента. Это разделение позволяет более точно управлять процессом передачи движения. Мы можем определить два основных компонента:

Градиент движения: отвечает за захват того, как латентное пространство влияет на характеристики движения.
Градиент контента: захватывает информацию, специфичную для контента, и представляет остаточный градиент после учета движения.

Смесь градиентов

MSG формулируется как смесь градиентов, где каждая компонента вносит свой вклад в различные аспекты процесса генерации. Это позволяет системе исследовать правильную мантию движения, сохраняя при этом контент и обеспечивая стабильные траектории без артефактов.

Эксперименты

Настройка эксперимента

Для реализации MSG использовалась модель CogVideoX для генерации и редактирования видео. Все эксперименты проводились с разрешением 720x480 пикселей, используя 50 временных шагов диффузии. Методология включает в себя две фазы: сначала извлекаются оценки условного градиента из референсного видео на ранних временных шагах, а затем это руководство применяется при генерации видео с переданными движениями.

Качественные эксперименты

Результаты экспериментов показывают универсальность MotionShop в различных сценариях передачи движения. Метод успешно обрабатывает как одиночные, так и многократные передачи объектов. Например, MotionShop эффективно преобразует черного лебедя в лошадь, сохраняя реалистичные паттерны движения и контекстуальные элементы, такие как брызги воды.

Сравнение с существующими методами

В ходе качественного сравнения MotionShop с другими методами, такими как Motion Inversion, DMT, VMC и Motion Director, было обнаружено, что MotionShop демонстрирует преимущества в обработке фона и передаче сложных движений камеры. В отличие от других методов, MotionShop сохраняет композицию оригинальной сцены, правильно трансформируя целевые объекты.

MotionBench: Набор данных для оценки передачи движения

Мы представляем MotionBench, первый набор данных, специально разработанный для оценки возможностей передачи движения в моделях генерации видео. Набор данных состоит из 200 источников видео и 1000 соответствующих переданных последовательностей, что позволяет систематически оценивать методы передачи движения по различным сценариям.

Структура набора данных

MotionBench включает три основные категории движения:

Движение одного объекта: 85 видео, охватывающих различные паттерны движения, от механических до сложных артикулированных.
Движение нескольких объектов: 65 видео, оценивающих способности передачи движения в сценариях с несколькими движущимися объектами.
Движение камеры: 50 видео, специально разработанных для оценки возможностей передачи движений камеры.

Каждая категория включает в себя тщательно подобранные последовательности, которые учитывают различные уровни сложности в передаче движения.

Заключение

В данной работе представлен MotionShop, первый подход к передаче движения в видеодифузионных трансформерах, который реформулирует условный градиент для разложения на движение и контент. Используя смесь потенциальных энергий, наш метод позволяет осуществлять креативные трансформации сцен, сохраняя при этом паттерны движения. Extensive эксперименты демонстрируют эффективность MSG в различных сценариях, от одиночных и многократных трансформаций объектов до сложных движений камеры.

Таким образом, MSG представляет собой значительный шаг вперед в области передачи движения, предлагая гибкость и точность, которые необходимы для успешного применения в видео генерации и редактировании.

Статья на arxiv Оригинал pdf diffusion score dataset

Ай Дайджест