Свежая выжимка ml и AI статей - каждый день
Современные модели видеодиффузии (VDMs), обученные на данных масштаба интернета, обладают обширными знаниями о физическом мире. Они не только изучают визуальные характеристики и правдоподобную динамику, но и имеют глубокое понимание 3D-структуры. Однако, несмотря на это, большинство из этих знаний хранится в модели неявно, и такие модели не предоставляют детализированных механизмов управления, таких как контроль движения камеры. В последние годы наблюдается рост работ, которые интегрируют 3D-контроль камеры в основные видеомодели, но качество управления камерой часто оказывается недостаточно точным, что приводит к ухудшению качества синтеза видео.
В этой статье мы анализируем контроль движения камеры в видеодиффузионных моделях с точки зрения первых принципов и разрабатываем несколько выводов, которые позволяют нам внедрять точное 3D-управление камерой, не ухудшая качество синтеза. Мы представляем новый метод под названием Advanced 3D Camera Control (AC3D), который является передовым решением для генеративного видеомоделирования с контролем камеры.
Для изучения статистической природы управления движением мы анализируем спектральные объемы движения (MSV) видео, сгенерированного крупномасштабной моделью видеодиффузии. MSV показывает количество энергии в различных частях частотного спектра. Мы наблюдаем, что движение камеры в основном влияет на нижнюю часть спектра, и активируется на очень ранних этапах процесса синтеза. Это открытие побуждает нас ограничить внедрение условий камеры только на подмножество шагов денойзинга, соответствующих низким частотам, что приводит к улучшению визуальной достоверности и качеству следования камеры.
Второй аспект нашего анализа заключается в том, чтобы выяснить, обладает ли текстовая модель VDiT знаниями о камере и где эта информация выражена в архитектуре. Мы проводим линейное зондирование, чтобы определить, могут ли позы камеры быть восстановлены из внутреннего представления модели. Мы обнаруживаем, что модель VDiT неявно выполняет оценку позы камеры внутри своей архитектуры, причем информация о камере наиболее явно представлена в средних слоях модели. Это позволяет нам адаптировать схему кондиционирования, чтобы она влияла только на первые 30% архитектуры, что приводит к значительному сокращению параметров модели и улучшению качества визуализации.
Традиционно для обучения архитектур управления камерой полагались на аннотации позы камеры, предоставленные в наборах данных, таких как RealEstate10K. Однако этот набор данных в основном содержит статические сцены, что приводит к значительному ухудшению динамики сцены в модели. Чтобы решить эту проблему, мы создаем подмножество из 20K разнообразных видео с динамическими сценами, но со статичными камерами. Это помогает модели различать движения камеры и сцены, улучшая динамику сгенерированных видео.
Мы используем видеодиффузионный трансформер (VDiT) с 11.5 миллиарда параметров, который предварительно обучен на наборе данных из 100 миллионов пар текст/видео. Мы адаптируем решение управления камерой из VD3D, изменяя его с пиксельного на латентное диффузионное моделирование, что значительно повышает его производительность.
Для создания базовой архитектуры управления камерой мы реализуем Conditioning на основе ControlNet, который обрабатывает сигналы управления камеры, сохраняя при этом основную модель VDiT замороженной. Мы используем представления камеры, такие как Plücker координаты, которые проецируются на ту же размерность и разрешение, что и токены видео. Это позволяет эффективно интегрировать информацию о камере в процесс генерации видео.
Мы проводим анализ движения, чтобы выяснить, как модель диффузии обрабатывает движения камеры. Для этого мы генерируем 200 разнообразных видео и аннотируем их для анализа спектров движения. Наша гипотеза заключается в том, что движение, вызванное изменениями позы камеры, является низкочастотным сигналом.
Мы проводим линейное зондирование модели VDiT, чтобы исследовать, как камера представлена в ее архитектуре. Мы используем 1000 видео из набора RealEstate10K, чтобы проверить, может ли модель точно предсказать параметры камеры. Результаты показывают, что модель может точно предсказывать сигнал камеры, что подтверждает наши гипотезы о внутреннем представлении модели.
Мы создаем новый набор данных из 20K видео с динамическими сценами, но статичными камерами, что позволяет модели лучше различать движения камеры и сцены. Это значительно улучшает качество сгенерированных видео.
Мы проводим обширные эксперименты, чтобы оценить эффективность нашего подхода. Мы сравниваем AC3D с современными методами управления камерой, такими как MotionCtrl и CameraCtrl. Результаты показывают, что AC3D достигает на 18% более высокой визуальной достоверности и на 25% более точного управления камерой по сравнению с ближайшими конкурентами.
Мы используем различные автоматические метрики и пользовательские исследования для оценки производительности. В пользовательских исследованиях участники выбирали предпочтительные видео на основе различных критериев, таких как согласованность камеры, качество движения и визуальное качество. Результаты показывают, что AC3D предпочтительнее в 90% случаев.
Наши выводы показывают, что принципиальный анализ движения камеры в моделях видеодиффузии приводит к значительным улучшениям в точности управления и эффективности. Благодаря улучшенным схемам кондиционирования, целевому управлению камерой на уровне слоев и лучшим данным для обучения, AC3D достигает состояния искусства в синтезе видео с контролем камеры, сохраняя высокое качество визуализации и естественную динамику сцены. В будущем мы планируем сосредоточиться на дальнейшей оптимизации данных и разработке механизмов управления для траекторий камеры, выходящих за пределы обучающего распределения.