Свежая выжимка ml и AI статей - каждый день
В последние годы модели генерации видео на основе диффузии привлекли значительное внимание благодаря своей способности создавать высококачественный и разнообразный видеоконтент. Эти модели, основанные на трансформерах, открывают новые возможности для автоматизированного и креативного синтеза видео. Одной из ключевых задач в этой области является передача движения, которая фокусируется на переносе движений из одного видео в другое, часто с использованием текстовых подсказок.
В данной статье мы представляем новый подход под названием Mixture of Score Guidance (MSG), который является первым методом передачи движения в диффузионных трансформерах. MSG предлагает теоретически обоснованный фреймворк для передачи движения, который позволяет сохранять композицию сцены и осуществлять креативные трансформации, сохраняя при этом целостность передаваемых движений.
Передача движения подразумевает не просто замену одного объекта на другой, а требует значительных изменений в контексте окружающей среды. Например, трансформация движения автомобиля в полет самолета требует адаптации не только самого объекта, но и его взаимодействия с окружающей средой. Это важно для создания видео с движениями, которые сложно описать только текстом, такими как сложные движения камеры.
Несмотря на достижения в области генерации и редактирования видео, управление движением остается сложной задачей. Существующие методы часто не справляются с более сложными задачами передачи движения, такими как трансформации с несколькими объектами или сложными движениями камеры. Эти методы могут неадекватно изменять сцену, просто заменяя один объект на другой, не учитывая изменения в окружении.
MSG предлагает новый подход к передаче движения, основанный на реформулировании условного градиента для разложения на движение и контент. Это позволяет создать смесь потенциальных энергий, что естественным образом сохраняет композицию сцены. Метод работает непосредственно на предобученных моделях видео-диффузии без необходимости дополнительного обучения или дообучения.
Основной теоретической вклад MSG заключается в том, что он устанавливает математическую связь между смешиванием градиентов и динамикой Ланжевена. Это обеспечивает теоретические перспективы для стабильной передачи движения. В процессе экспериментов MSG продемонстрировал успешное управление различными сценариями, включая передачу движения одного объекта, нескольких объектов и сложные движения камеры.
Диффузионный процесс можно рассматривать как высокоразмерную случайную переменную, которая постепенно преобразует распределение данных в известное приоритетное распределение через стохастическое дифференциальное уравнение. Этот процесс включает в себя градиенты, которые служат механизмом для отмены прямого процесса диффузии.
Градиент функции может быть разделен на компоненты движения и контента. Это разделение позволяет более точно управлять процессом передачи движения. Мы можем определить два основных компонента:
MSG формулируется как смесь градиентов, где каждая компонента вносит свой вклад в различные аспекты процесса генерации. Это позволяет системе исследовать правильную мантию движения, сохраняя при этом контент и обеспечивая стабильные траектории без артефактов.
Для реализации MSG использовалась модель CogVideoX для генерации и редактирования видео. Все эксперименты проводились с разрешением 720x480 пикселей, используя 50 временных шагов диффузии. Методология включает в себя две фазы: сначала извлекаются оценки условного градиента из референсного видео на ранних временных шагах, а затем это руководство применяется при генерации видео с переданными движениями.
Результаты экспериментов показывают универсальность MotionShop в различных сценариях передачи движения. Метод успешно обрабатывает как одиночные, так и многократные передачи объектов. Например, MotionShop эффективно преобразует черного лебедя в лошадь, сохраняя реалистичные паттерны движения и контекстуальные элементы, такие как брызги воды.
В ходе качественного сравнения MotionShop с другими методами, такими как Motion Inversion, DMT, VMC и Motion Director, было обнаружено, что MotionShop демонстрирует преимущества в обработке фона и передаче сложных движений камеры. В отличие от других методов, MotionShop сохраняет композицию оригинальной сцены, правильно трансформируя целевые объекты.
Мы представляем MotionBench, первый набор данных, специально разработанный для оценки возможностей передачи движения в моделях генерации видео. Набор данных состоит из 200 источников видео и 1000 соответствующих переданных последовательностей, что позволяет систематически оценивать методы передачи движения по различным сценариям.
MotionBench включает три основные категории движения:
Каждая категория включает в себя тщательно подобранные последовательности, которые учитывают различные уровни сложности в передаче движения.
В данной работе представлен MotionShop, первый подход к передаче движения в видеодифузионных трансформерах, который реформулирует условный градиент для разложения на движение и контент. Используя смесь потенциальных энергий, наш метод позволяет осуществлять креативные трансформации сцен, сохраняя при этом паттерны движения. Extensive эксперименты демонстрируют эффективность MSG в различных сценариях, от одиночных и многократных трансформаций объектов до сложных движений камеры.
Таким образом, MSG представляет собой значительный шаг вперед в области передачи движения, предлагая гибкость и точность, которые необходимы для успешного применения в видео генерации и редактировании.