DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска
Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.