MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Введение

Генерация видео с использованием текстовых описаний (T2V) представляет собой сложную задачу, особенно когда речь идет о создании видео с динамичными и сложными действиями. Традиционные модели, опирающиеся исключительно на текстовые подсказки, часто не могут адекватно передать детали движения, что ограничивает их возможности в создании видео с выраженными действиями. В данной статье мы рассмотрим инновационный подход, представленный в работе "MVideo: Motion Control for Enhanced Complex Action Video Generation", который предлагает новый взгляд на эту проблему.

Основные концепции MVideo

1. Проблемы Текстовых Подсказок

Текстовые описания, хотя и являются мощным инструментом для передачи содержания, часто не могут точно описать динамику и нюансы сложных движений. Это приводит к тому, что сгенерированные видео могут быть статичными или неадекватно отражать задуманное действие.

2. Масковые Последовательности как Дополнительный Контроль

MVideo вводит концепцию использования масковых последовательностей в качестве дополнительного входного сигнала для управления движением. Маски позволяют более точно указать, какие объекты должны двигаться, как и в каком направлении, что существенно улучшает качество и точность генерируемого видео.

3. Использование Фундаментальных Видеомоделей

Для автоматизации процесса создания масковых последовательностей MVideo использует такие модели, как GroundingDINO и SAM2. Эти модели помогают идентифицировать и сегментировать объекты в видео, что делает процесс создания масковых последовательностей более эффективным и точным.

4. Генерация Долгих Видео

Одной из ключевых особенностей MVideo является возможность генерировать видео длительностью до 12 секунд с разрешением 480x720 пикселей. Это достигается благодаря итеративному подходу к генерации видео, где каждый фрагмент длительностью в 4 секунды генерируется последовательно, обеспечивая временную согласованность и целостность действия.

5. Управление Движением и Композиция

MVideo позволяет не только генерировать видео с заданными действиями, но и редактировать или комбинировать масковые последовательности для создания более сложных и динамичных сцен. Это открывает новые возможности для творчества и экспериментов в области видео генерации.

Технические Детали

Архитектура и Тренировка

Основа: MVideo использует предобученную модель CogvideoX, которую дообучает с использованием LoRA (Low-Rank Adaptation) для интеграции новых функций.
Условия: Модель принимает текстовые подсказки, масковые последовательности, а также высокоразрешенные изображения и низкоразрешенные видео в качестве условий для генерации.
Потери: Введение консистентной потери (consistency loss) позволяет модели сохранять способность к выравниванию текстовых подсказок, одновременно обучаясь на масковых последовательностях.

Результаты

Текстовое Выравнивание: MVideo показывает сопоставимые результаты с ведущими моделями T2V в плане общего соответствия и качества изображения.
Выравнивание Масковых Последовательностей: Модель демонстрирует высокую точность в соответствии масковым последовательностям, даже для невиданных ранее объектов.

Примеры Использования

Изменение Фона: С помощью масковых последовательностей и текстовых подсказок можно создавать видео с различными фоновыми сценами, не изменяя саму динамику действия.
Изменение Объектов: Модель позволяет менять объекты в движении, например, заменяя лошадь на робота или добавляя новые объекты в сцену.
Редактирование Масковых Последовательностей: Модификация масковых последовательностей позволяет создавать видео с различными эффектами движения, такими как увеличение или уменьшение масштаба камеры.

Заключение

MVideo представляет собой значительный шаг вперед в области генерации видео с сложными действиями. Введение масковых последовательностей как дополнительного условия для управления движением открывает новые возможности для создания более динамичных и реалистичных видео. Это не только улучшает качество генерации, но и делает процесс более гибким и контролируемым, что может быть полезно как для профессионалов в области видео, так и для любителей.

Статья на arxiv Оригинал pdf motion text training

Ай Дайджест