ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Современные технологии генерации видео, такие как преобразование текста в видео (T2V) и преобразование изображений в видео (I2V), активно развиваются, благодаря чему появляются новые методы, позволяющие контролировать движение объектов в создаваемом видео. Однако многие из существующих методов используют двумерные (2D) траектории, что ограничивает их способность точно передавать намерения пользователя и часто приводит к неестественным результатам. В ответ на эти ограничения была разработана новая методика под названием ObjCtrl-2.5D, которая использует трехмерные (3D) траектории, извлеченные из 2D траекторий с учетом информации о глубине, для более точного управления движением объектов в процессе генерации видео.

Основные концепции ObjCtrl-2.5D

Проблемы существующих методов

Большинство существующих методов управления движением объектов в видео используют 2D представления, такие как ограничительные рамки и дискретные точки траектории. Эти методы, хотя и эффективны в определенных контекстах, не учитывают пространственное положение объектов в трехмерном пространстве, что приводит к неестественным движениям. Например, при использовании 2D траектории для управления движением автомобиля в видео, машина может следовать заданной траектории, но ее движение будет выглядеть неестественно, как если бы она перемещалась по горизонтали, игнорируя изменение глубины.

ObjCtrl-2.5D: новый подход

ObjCtrl-2.5D представляет собой подход без обучения, который использует 3D траектории, расширенные из 2D траекторий с учетом глубины, в качестве управляющего сигнала. Эта методика моделирует движение объектов как движение камеры, что позволяет использовать существующие модели управления движением камеры для управления движением объектов без дополнительного обучения. Это достигается путем представления 3D траектории как последовательности поз камеры.

Компоненты ObjCtrl-2.5D

Расширение 2D траектории в 3D: ObjCtrl-2.5D расширяет 2D траектории, используя информацию о глубине, извлеченную из условного изображения. Каждая точка 2D траектории преобразуется в 3D, добавляя соответствующую глубину.
Моделирование через позы камеры: 3D траектория затем преобразуется в позы камеры с использованием триангуляционного алгоритма. Это позволяет точно контролировать движение объектов, используя существующие модели управления движением камеры.
Модуль управления слоями (LCM): Для адаптации моделей глобального управления движением к локальному контролю движения объектов был введен модуль, который изолирует целевой объект от фона. Это обеспечивает независимое управление локальным движением объекта.
Общие искажения (SWL): В дополнение к LCM, была разработана техника общего искажения, которая улучшает точность управления объектами, делая возможным совместное использование низкочастотных искажений в области объекта на протяжении всех кадров.

Методология

Подход к генерации видео

ObjCtrl-2.5D использует Stable Video Diffusion (SVD) как основную модель для генерации видео. Эта модель принимает условное изображение в качестве входных данных и генерирует видео с использованием интегрированного процесса диффузии с латентным шумом. Модель управления камерой (CameraCtrl) обеспечивает пространственное представление поз камеры, что является основой для управления движением объектов.

Преобразование 2D траекторий в 3D

Процесс преобразования 2D траектории в 3D включает несколько этапов:

Извлечение глубины: Глубина каждой точки 2D траектории определяется с использованием карты глубины, извлеченной из условного изображения. Это позволяет сохранить плавность движения и избежать резких изменений глубины между соседними точками.
Триангуляция: 3D траектория преобразуется в позы камеры с помощью триангуляционного алгоритма. Это позволяет моделировать движение объекта в видео как движение камеры, что обеспечивает более точное управление.

Модуль управления слоями (LCM)

Модуль управления слоями (LCM) предназначен для изоляции целевого объекта от фона, что позволяет контролировать только объект, не влияя на фон. Это достигается с помощью маски объекта, созданной с использованием методов сегментации, таких как SAM (Segment Anything Model). LCM обеспечивает более высокую точность контроля за движением объектов, что особенно важно для сложных сцен.

Общие искажения (SWL)

Техника общего искажения (SWL) улучшает управление объектами, позволяя совместно использовать искажения низкой частоты в области объекта на протяжении всех кадров. Это обеспечивает более согласованное движение объекта и повышает точность генерации видео.

Результаты экспериментов

Оценка эффективности

Эксперименты показали, что ObjCtrl-2.5D значительно улучшает точность управления движением объектов по сравнению с предыдущими методами, основанными на 2D траекториях. В частности, метод продемонстрировал более высокую степень соответствия заданной траектории и более естественное движение объектов в видео.

Сравнение с существующими методами

ObjCtrl-2.5D был сравнен с несколькими существующими методами, как обучаемыми, так и не обучаемыми. Результаты показали, что, хотя методы, основанные на обучении, могут обеспечивать более высокую точность, ObjCtrl-2.5D предлагает более универсальные возможности управления движением объектов, включая сложные эффекты, такие как вращение объектов.

Пользовательское исследование

В рамках пользовательского исследования большинство участников предпочли результаты, полученные с помощью ObjCtrl-2.5D, благодаря лучшему соответствию заданной траектории и более естественному движению объектов. Это подтверждает эффективность предложенного подхода.

Заключение

ObjCtrl-2.5D представляет собой значительный шаг вперед в области управления движением объектов в генерации видео. Используя 3D траектории, извлеченные из 2D данных с учетом информации о глубине, метод достигает более высокой точности и универсальности, чем существующие подходы. Введение модулей, таких как LCM и SWL, дополнительно улучшает контроль за движением объектов, позволяя создавать более естественные и реалистичные видеопотоки. Это исследование подчеркивает важность интеграции информации о глубине для достижения реалистичных результатов в генерации видео и открывает новые возможности для будущих разработок в области контролируемой генерации видео.

Статья на arxiv Оригинал pdf modeling generation motion

Ай Дайджест