DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Создание видео по сценарию, или Storytelling Video Generation (SVG), представляет собой задачу по созданию длинных видеороликов, которые включают множество сцен и движений, точно отражающих описанный в тексте сюжет. Это направление имеет огромный потенциал для создания разнообразного контента в сферах медиа и развлечений, но также и свои сложности:

Объекты должны демонстрировать сложные, детализированные движения.
Множество объектов должны сохранять свою идентичность на протяжении всех сцен.
Субъекты могут требовать выполнения нескольких действий с плавными переходами в пределах одной сцены.

Для решения этих задач мы представляем DREAM RUNNER, новый метод генерации видео по сценарию:

Первое: структурирование входного сценария с использованием LLM для планирования как крупных сцен, так и детализированных движений объектов.
Второе: использование адаптации движения на основе поиска для захвата целевых движений объектов в каждой сцене.
Третье: внедрение новой пространственно-временной региональной 3D внимательности и модуля инъекции приоритетов (SR3AI) для детализированного управления движениями объектов и плавных переходов между кадрами.

Методология

1. Генерация Двухуровневых Планов с Использованием LLM

DREAM RUNNER начинает с создания иерархического плана видео, используя LLM:

Высокоуровневое планирование: LLM генерирует последовательность событий, охватывающих несколько сцен, фокусируясь на движениях и действиях персонажей. Это создает общий каталог событий, направляющий развитие сюжета видео.
Детализированное планирование: Для каждой сцены создаются подробные планы, описывающие расположение и движения ключевых объектов в каждом кадре. Это обеспечивает точное соответствие между сценой и сюжетом.

2. Поиск Движений и Обучение Приоритетов

Для точного следования сценарию, особенно при локализованных и сложных движениях, DREAM RUNNER использует адаптацию движения на основе поиска:

Поиск видео: Из базы данных видео выбираются клипы, соответствующие желаемым движениям, с помощью автоматизированного процесса поиска.
Обучение приоритетов: На основе выбранных видео обучаются приоритеты движения и внешнего вида персонажей, используя параметрически эффективные модули в слоях модели DiT.

3. Генерация Видео с Использованием Региональной Диффузии

DREAM RUNNER внедряет новый модуль SR3AI для генерации видео:

Региональная 3D внимательность: Модуль SR3AI позволяет управлять различными аспектами генерации видео, включая детализированные семантические переходы между кадрами и контроль движения объектов в пределах 3D внимательных слоев.
Инъекция приоритетов: Приоритеты, обученные на основе поиска, интегрируются в соответствующие регионы видео, обеспечивая плавные и естественные переходы между различными действиями и состояниями объектов.

Эксперименты и Результаты

Оценка на Датасете DreamStorySet

Мы провели сравнительный анализ DREAM RUNNER с предыдущими методами на нашем новом датасете DreamStorySet:

Сравнение с VideoDirectorGPT и VLogger: DREAM RUNNER показал улучшение на 13.1% по CLIP score и 8.56% по ViCLIP score по сравнению с VLogger, подчеркивая его способность к созданию более согласованных и точных видео.
Плавные переходы: Модель обеспечила улучшение на 27.2% по DINO score, демонстрируя эффективность в создании плавных переходов между событиями внутри одной сцены.

Обобщение на Задаче Композиционной Генерации Текст-в-Видео

DREAM RUNNER также был адаптирован для задачи композитной генерации текст-в-видео:

Превосходство над базовыми методами: На T2V-CompBench, DREAM RUNNER превзошел базовые методы по всем метрикам, включая связывание атрибутов, движения и взаимодействия объектов.
Сравнение с закрытыми моделями: Несмотря на то, что модель основана на открытом источнике, DREAM RUNNER показал результаты, сравнимые или превосходящие закрытые модели в некоторых аспектах, что подчеркивает потенциал подхода к улучшению открытых моделей до уровня закрытых.

Заключение

DREAM RUNNER представляет собой инновационный подход к генерации видео по сценарию, который значительно улучшает качество, согласованность и плавность переходов между действиями. Использование LLM для планирования, поиск движений и региональная диффузия с инъекцией приоритетов позволяют создавать видео, которые точно отражают сюжетные линии и обеспечивают богатый визуальный опыт. Эксперименты подтверждают, что DREAM RUNNER превосходит существующие методы, предлагая новые возможности для создания контента в медиа и развлекательной индустрии.

Статья на arxiv Оригинал pdf svg motion llm

Ай Дайджест