Свежая выжимка ml и AI статей - каждый день
Современные достижения в области генерации видео значительно продвинулись вперед благодаря использованию сложных моделей глубокого обучения, таких как модели диффузии видео и механизмы временного внимания. Генерация видео с контролем движения, которая нацелена на создание индивидуализированного движения в процессе генерации видео, становится все более важной. Одним из ключевых аспектов этой области является управление движением камеры, которое находит широкое применение в создании визуального контента, адаптированного под определенные взгляды. Однако эффективное условие генерации на основе заданных траекторий камеры остается сложной задачей.
В данной статье мы рассмотрим новый подход, называемый "траектория внимания" (trajectory attention), который выполняет внимание вдоль доступных пиксельных траекторий для детального управления движением камеры. В отличие от существующих методов, которые часто приводят к неточным результатам или игнорируют временные корреляции, наш подход обладает более сильным индуктивным смещением, которое бесшовно интегрирует информацию о траектории в процесс генерации видео.
Существующие подходы к управлению движением камеры включают в себя несколько стратегий. Одна из них заключается в кодировании параметров камеры в эмбеддинги и их внедрении в модель через механизм перекрестного внимания или сложения. Хотя этот метод является простым, он часто приводит к неточным и неоднозначным результатам из-за высокоуровневых ограничений и неявных механизмов управления.
Другой подход включает рендеринг частичных кадров на основе траекторий камеры и использование их либо в качестве прямого ввода, либо в качестве целевых объектов для оптимизации. Однако этот метод часто игнорирует временные корреляции между кадрами, что приводит к несоответствиям в сгенерированной последовательности.
Недавние исследования начали учитывать временные отношения, используя 3D-индуктивные смещения. Эти подходы сосредоточены на узких областях, используя специфические настройки, такие как внимание по строкам или внимание с эпиполярными ограничениями. Однако, когда мы рассматриваем траекторию движения камеры по сценам, становится очевидным, что определенные части движущихся траекторий пикселей, представленные в виде последовательности 2D-координат, предсказуемы из-за 3D-ограничений согласованности.
Мы предлагаем использовать траекторию внимания как вспомогательную ветвь наряду с традиционным временным вниманием. Эта конструкция позволяет оригинальному временно́му вниманию и траектории внимания работать в синергии, обеспечивая как точное управление движением, так и новые возможности генерации контента. Это особенно важно, когда траектория доступна лишь частично.
Временное внимание, которое является центральным элементом видео моделей для синтеза динамических движений с согласованным содержанием, работает следующим образом. Данное внимание применяется вдоль временной оси, где входные латентные характеристики проецируются в запросы, ключи и значения. В результате временное внимание эффективно захватывает динамические и согласованные видео движения, что делает его естественным кандидатом для управления движением в видео моделях.
Траектория внимания, в отличие от временного внимания, направлено на гарантирование долгосрочной согласованности по признакам вдоль траектории. Мы используем заданные траектории для выборки характеристик из скрытых состояний и применяем многоголовое внимание с различными параметрами. Это позволяет достичь более точного контроля над движением и обеспечивает согласованность в рамках заданных путей.
Наши эксперименты по управлению движением камеры для изображений и видео показывают, что предложенные конструкции значительно улучшают точность и долгосрочную согласованность. Мы наблюдаем, что использование более сильного индуктивного смещения оптимизирует механизм внимания, что приводит к улучшению точности управления при сохранении высокого качества генерации.
Метод "траектория внимания" также может быть расширен на другие задачи управления движением в видео, такие как редактирование видео с использованием первой рамки в качестве ориентира. Существующие техники часто сталкиваются с трудностями в поддержании согласованности контента на больших пространственных и временных диапазонах. В отличие от них, наш метод демонстрирует способность моделировать долгосрочные, согласованные соответствия, что приводит к многообещающим результатам в этих сложных сценариях.
Основной механизм моделирования движения в видео моделях заключается в механизме временного внимания. Мы демонстрируем разложенный подход, который более широко используется и доступен для открытого исходного кода. Временное внимание работает вдоль временной оси, обеспечивая возможность захвата динамических движений.
Для эффективного обучения мы инициализируем веса проекций QKV с использованием тех, что были получены в слоях временного внимания. Это позволяет использовать уже изученные возможности моделирования движения, что приводит к более быстрой сходимости и лучшей общей производительности.
Для обучения мы используем крупномасштабный видео датасет с длинными видео и структурированными подписями. Мы проводим эксперименты на различных комбинациях сцен и траекторий камеры, чтобы оценить эффективность нашего подхода.
Результаты показывают, что наш метод обеспечивает более высокую точность управления по сравнению с другими подходами, такими как MotionCtrl и Motion-I2V. Мы наблюдаем, что наш метод сохраняет лучшее качество генерации, при этом обеспечивая более высокую точность управления.
Качественные результаты показывают, что наш подход позволяет точно контролировать движения камеры, обеспечивая согласованность контента на протяжении всего видео. Это достигается благодаря способности нашего метода моделировать динамику движения как траектории вдоль кадров.
В заключение, мы представили "траекторию внимания" как новый подход для детального управления движением камеры в генерации видео. Наш метод демонстрирует значительные улучшения в точности и долгосрочной согласованности, что подтверждается экспериментальными результатами. Подход также может быть расширен на другие задачи управления движением, что подчеркивает его потенциальное влияние на более широкую область генерации и редактирования видео.