Свежая выжимка ml и AI статей - каждый день
Генерация видео с возможностью контроля (controllable video generation) представляет собой одну из самых актуальных задач в области компьютерного зрения и машинного обучения. Она позволяет создавать высококачественные видео, управляемые пользовательскими вводами, такими как текстовые подсказки, эскизы или ограничивающие рамки. Ключевой аспект этой задачи заключается в точном управлении движением объектов в видео, что необходимо для симуляции динамичного мира. Это также помогает генеративным моделям видео лучше понимать физику окружающего мира.
Ранее существующие методы управления движением объектов в генерации видео в основном полагались на 2D контрольные сигналы, такие как 2D эскизы и ограничивающие рамки. Хотя они обеспечили впечатляющие результаты, 2D сигналы не могут полностью выразить трехмерную (3D) природу движений объектов. В реальном мире объекты перемещаются в 3D пространстве, и некоторые свойства движения могут быть описаны только с помощью 3D представлений. Например, вращение объекта можно кратко описать с помощью трех параметров в 3D, в то время как 2D сигналы не могут отобразить такие концепции, как окклюзии между объектами.
В этой статье мы сосредоточимся на проблеме управления многосущностными 3D движениями в генеративных моделях видео, стремясь симулировать подлинную динамику объектов в 3D пространстве. Мы представим 3DTrajMaster — новый подход, который позволяет управлять движениями нескольких объектов в 3D пространстве для генерации видео, используя специфические для сущностей последовательности 6DoF (шести степеней свободы) поз.
В основе нашего подхода лежит модуль "инжектор объектов", который связывает каждую сущность с соответствующими последовательностями поз и затем вводит эти условия в основную модель для управления движением сущностей. Конкретно, сущности и траектории проецируются в скрытые представления через замороженный текстовый кодировщик и обучаемый кодировщик поз соответственно. Эти два представления затем объединяются, чтобы сформировать соответствия, которые далее подаются в слой самовнимания с затвором для слияния движений.
Эта архитектура "plug-and-play" сохраняет приоритеты модели видео и может обобщаться на более разнообразные сущности и 3D траектории. Однако другая проблема в обучении нашей модели заключается в доступности данных.
Существующие видеодатасеты сталкиваются с двумя ключевыми ограничениями: низкое разнообразие сущностей и неточная оценка поз. Большинство датасетов с параллельными сущностями и 3D траекториями ограничены людьми и автономными транспортными средствами, что приводит к несогласованным пространственным распределениям и переполнению сущностей. Чтобы преодолеть эти ограничения, мы создали собственный датасет, названный 360°-Motion Dataset, который обеспечивает унифицированное распределение траекторий с использованием передовых технологий рендеринга в Unreal Engine (UE).
Датасет включает в себя 3D активы людей и животных, которые были собраны и отмасштабированы до унифицированного кубического пространства. Мы использовали GPT для генерации шаблонов 3D траекторий для этих активов. Эти глобально анимированные активы были захвачены с использованием 12 равномерно расположенных камер в собранных 3D сценах, что позволяет получать видео формата 384×672.
Чтобы предотвратить смещение домена видео в нашем собранном датасете, мы внедрили два ключевых компонента: адаптер домена видео, который обучается для соответствия распределению данных, и стратегию аннулирования выборки, где траектории вводятся для управления общим движением на ранних этапах и исключаются на более поздних.
3DTrajMaster обучается в два этапа. Сначала используется адаптер домена для смягчения негативного воздействия обучающих видео. Затем модуль инжектора объектов вставляется после слоя 2D пространственного самовнимания для интеграции парных сущностей и 3D траекторий.
Во время вывода мы инициализируем видео латентное пространство как стандартный гауссовский шум и постепенно уменьшаем его с помощью желаемых пар сущностей-траекторий. Мы применяем безклассификационное руководство и используем DDIM для ускорения выборки.
Для оценки точности траекторий мы используем GVHMR для оценки человеческих поз и сравниваем их с входными последовательностями поз. Мы также используем стандартные метрики, такие как Frechet Video Distance (FVD), Frechet Image Distance (FID) и CLIP Similarity (CLIPSIM), для оценки визуального качества видео.
Мы сравниваем 3DTrajMaster с существующими методами, такими как MotionCtrl и Direct-a-Video. Результаты показывают, что 3DTrajMaster значительно превосходит все базовые методы по точности и качеству видео. Наша модель может контролировать местоположение и ориентацию объектов в 3D пространстве, что позволяет более точно управлять движениями.
3DTrajMaster также поддерживает гибкие изменения атрибутов сущностей, таких как волосы, одежда и размер фигуры. Это позволяет пользователям настраивать ввод, что делает модель более универсальной для различных приложений.
В этой работе мы представили 3DTrajMaster — унифицированную платформу для управления многосущностными движениями в 3D пространстве с использованием представлений движений в виде последовательностей поз 6DoF. Наша гибкая архитектура инжектора объектов устанавливает соответствие между сущностями и их движениями, позволяя пользователям настраивать ввод с высокой степенью детализации.
Хотя текущая модель ограничена в генерации до трех сущностей одновременно, мы уверены, что с помощью более мощных моделей и парных наборов данных это ограничение можно будет преодолеть. В будущем мы планируем расширить возможности 3DTrajMaster для более сложных взаимодействий между сущностями и улучшить обобщение на более разнообразные наборы данных.