Управление генерацией видео с помощью траекторий движения

В генерации видео движение играет ключевую роль. Оно может превратить видео из неестественного в реалистичное, а также повысить его художественную ценность. Движение направляет внимание зрителей, улучшает повествование и определяет визуальный стиль. Опытные режиссеры, такие как Стэнли Кубрик и Акира Куросава, мастерски используют движение для создания захватывающих и погружающих опытов. Однако большинство существующих моделей генерации видео полагаются в основном на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций.

В данной статье мы представляем новую методику управления генерацией видео с использованием траекторий движения, что позволяет более точно и выразительно контролировать динамику в видео. Мы обучаем модель генерации видео, которая использует пространственно-временные разреженные или плотные траектории движения. Эта гибкая репрезентация может кодировать любое количество траекторий, как специфичных для объектов, так и глобальных для сцены.

Основные концепции

Траектории движения как мощный инструмент управления

Траектории движения, также известные как "частичные видео" или "точечные треки", отслеживают движение и видимость набора точек на протяжении всего видео. Это предоставляет высокоэкспрессивное кодирование движения, которое может захватывать траектории любого количества точек, представлять специфическое для объектов или глобальное движение сцены и даже обрабатывать временно разреженные ограничения движения.

Гибкость репрезентации

Ранее существующие работы по управлению движением часто требовали сложных инженерных решений для стабильного обучения и лучшей сходимости. В отличие от них, наша методика использует более простую тренировочную схему, которая обеспечивает высокое качество результатов. Мы обучаем модель, используя равномерно распределенные плотные траектории, без каких-либо специализированных инженерных усилий, что позволяет обрабатывать широкий спектр задач и движений.

Расширение подсказок движения

Одной из ключевых особенностей нашего подхода является возможность преобразования высокоуровневых запросов пользователя в детализированные полуплотные траектории движения, что мы называем "расширением подсказок движения". Эта методика позволяет пользователям легко взаимодействовать с изображениями, манипулируя движением объектов, и обеспечивает более точный контроль над генерацией видео.

Применения

Мы демонстрируем универсальность нашего подхода через различные применения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Результаты показывают возникновение реалистичной физики, что указывает на потенциал подсказок движения для исследования видео моделей и взаимодействия с будущими генеративными мировыми моделями.

Архитектура и обучение

Архитектура модели

Мы строим нашу модель на основе предобученной модели диффузии видео, которая была обучена для генерации 5 секунд видео с частотой 16 кадров в секунду. Для управления движением мы используем ControlNet, который требует кодирования траекторий в пространственно-временном объеме. Каждой траектории сопоставляется уникальный вектор встраивания, который помещается в соответствующее пространство при видимости трека.

Процесс обучения

Для обучения модели мы подготавливаем набор данных видео, сочетающийся с траекториями. Мы используем метод BootsTAP для извлечения плотных траекторий из видео, что позволяет получить 16,384 трека на видео. Наша гипотеза заключается в том, что обучение на разнообразных движениях приведет к созданию более мощной и гибкой модели.

Применение подсказок движения

Взаимодействие с изображением

Наша модель позволяет пользователям "взаимодействовать" с изображениями через графический интерфейс, где пользователь может манипулировать объектами, такими как волосы или песок, просто перетаскивая мышь. Мы переводим движения мыши в более сложные траектории движения, что помогает достичь намерений пользователя.

Редактирование изображений на основе перетаскивания

Мы также демонстрируем возможность редактирования изображений, где объекты следуют за движениями, заданными пользователем. Это позволяет создавать более интерактивные и динамичные визуальные эффекты.

Управление движением камеры

Мы можем строить подсказки движения для управления камерой, специфицируя траекторию камеры и вычисляя облако точек с помощью метода оценки глубины. Это позволяет нам осуществлять плавные движения камеры в сцене, создавая более захватывающие визуальные эффекты.

Передача движения

Передача движения позволяет извлекать траектории из одного видео и применять их к другому, что делает возможным создание уникальных и неожиданных визуальных эффектов. Например, мы можем взять движение человека, поворачивающего голову, и применить его к другому объекту.

Оценка и результаты

Мы провели количественную оценку, сравнив нашу модель с базовыми моделями, используя такие метрики, как PSNR, SSIM и EPE. Результаты показывают, что наша модель превосходит существующие методы в большинстве случаев, что подтверждает эффективность предложенного подхода.

Заключение

В этой статье мы представили новый подход к управлению генерацией видео, используя гибкие подсказки движения. Наша методика позволяет пользователям задавать как разреженные, так и плотные траектории, что значительно расширяет возможности управления динамикой в видео. Мы также продемонстрировали, как расширение подсказок движения может помочь пользователям в создании более сложных и выразительных видео.

В будущем мы планируем продолжить развитие этой области, исследуя новые возможности для взаимодействия с генеративными моделями и улучшения качества генерации видео.

Статья на arxiv Оригинал pdf model control evaluation

Ай Дайджест