Свежая выжимка ml и AI статей - каждый день
В генерации видео движение играет ключевую роль. Оно может превратить видео из неестественного в реалистичное, а также повысить его художественную ценность. Движение направляет внимание зрителей, улучшает повествование и определяет визуальный стиль. Опытные режиссеры, такие как Стэнли Кубрик и Акира Куросава, мастерски используют движение для создания захватывающих и погружающих опытов. Однако большинство существующих моделей генерации видео полагаются в основном на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций.
В данной статье мы представляем новую методику управления генерацией видео с использованием траекторий движения, что позволяет более точно и выразительно контролировать динамику в видео. Мы обучаем модель генерации видео, которая использует пространственно-временные разреженные или плотные траектории движения. Эта гибкая репрезентация может кодировать любое количество траекторий, как специфичных для объектов, так и глобальных для сцены.
Траектории движения, также известные как "частичные видео" или "точечные треки", отслеживают движение и видимость набора точек на протяжении всего видео. Это предоставляет высокоэкспрессивное кодирование движения, которое может захватывать траектории любого количества точек, представлять специфическое для объектов или глобальное движение сцены и даже обрабатывать временно разреженные ограничения движения.
Ранее существующие работы по управлению движением часто требовали сложных инженерных решений для стабильного обучения и лучшей сходимости. В отличие от них, наша методика использует более простую тренировочную схему, которая обеспечивает высокое качество результатов. Мы обучаем модель, используя равномерно распределенные плотные траектории, без каких-либо специализированных инженерных усилий, что позволяет обрабатывать широкий спектр задач и движений.
Одной из ключевых особенностей нашего подхода является возможность преобразования высокоуровневых запросов пользователя в детализированные полуплотные траектории движения, что мы называем "расширением подсказок движения". Эта методика позволяет пользователям легко взаимодействовать с изображениями, манипулируя движением объектов, и обеспечивает более точный контроль над генерацией видео.
Мы демонстрируем универсальность нашего подхода через различные применения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Результаты показывают возникновение реалистичной физики, что указывает на потенциал подсказок движения для исследования видео моделей и взаимодействия с будущими генеративными мировыми моделями.
Мы строим нашу модель на основе предобученной модели диффузии видео, которая была обучена для генерации 5 секунд видео с частотой 16 кадров в секунду. Для управления движением мы используем ControlNet, который требует кодирования траекторий в пространственно-временном объеме. Каждой траектории сопоставляется уникальный вектор встраивания, который помещается в соответствующее пространство при видимости трека.
Для обучения модели мы подготавливаем набор данных видео, сочетающийся с траекториями. Мы используем метод BootsTAP для извлечения плотных траекторий из видео, что позволяет получить 16,384 трека на видео. Наша гипотеза заключается в том, что обучение на разнообразных движениях приведет к созданию более мощной и гибкой модели.
Наша модель позволяет пользователям "взаимодействовать" с изображениями через графический интерфейс, где пользователь может манипулировать объектами, такими как волосы или песок, просто перетаскивая мышь. Мы переводим движения мыши в более сложные траектории движения, что помогает достичь намерений пользователя.
Мы также демонстрируем возможность редактирования изображений, где объекты следуют за движениями, заданными пользователем. Это позволяет создавать более интерактивные и динамичные визуальные эффекты.
Мы можем строить подсказки движения для управления камерой, специфицируя траекторию камеры и вычисляя облако точек с помощью метода оценки глубины. Это позволяет нам осуществлять плавные движения камеры в сцене, создавая более захватывающие визуальные эффекты.
Передача движения позволяет извлекать траектории из одного видео и применять их к другому, что делает возможным создание уникальных и неожиданных визуальных эффектов. Например, мы можем взять движение человека, поворачивающего голову, и применить его к другому объекту.
Мы провели количественную оценку, сравнив нашу модель с базовыми моделями, используя такие метрики, как PSNR, SSIM и EPE. Результаты показывают, что наша модель превосходит существующие методы в большинстве случаев, что подтверждает эффективность предложенного подхода.
В этой статье мы представили новый подход к управлению генерацией видео, используя гибкие подсказки движения. Наша методика позволяет пользователям задавать как разреженные, так и плотные траектории, что значительно расширяет возможности управления динамикой в видео. Мы также продемонстрировали, как расширение подсказок движения может помочь пользователям в создании более сложных и выразительных видео.
В будущем мы планируем продолжить развитие этой области, исследуя новые возможности для взаимодействия с генеративными моделями и улучшения качества генерации видео.