MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов
В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.