Свежая выжимка ml и AI статей - каждый день
Создание видео по сценарию, или Storytelling Video Generation (SVG), представляет собой задачу по созданию длинных видеороликов, которые включают множество сцен и движений, точно отражающих описанный в тексте сюжет. Это направление имеет огромный потенциал для создания разнообразного контента в сферах медиа и развлечений, но также и свои сложности:
Для решения этих задач мы представляем DREAM RUNNER, новый метод генерации видео по сценарию:
DREAM RUNNER начинает с создания иерархического плана видео, используя LLM:
Высокоуровневое планирование: LLM генерирует последовательность событий, охватывающих несколько сцен, фокусируясь на движениях и действиях персонажей. Это создает общий каталог событий, направляющий развитие сюжета видео.
Детализированное планирование: Для каждой сцены создаются подробные планы, описывающие расположение и движения ключевых объектов в каждом кадре. Это обеспечивает точное соответствие между сценой и сюжетом.
Для точного следования сценарию, особенно при локализованных и сложных движениях, DREAM RUNNER использует адаптацию движения на основе поиска:
Поиск видео: Из базы данных видео выбираются клипы, соответствующие желаемым движениям, с помощью автоматизированного процесса поиска.
Обучение приоритетов: На основе выбранных видео обучаются приоритеты движения и внешнего вида персонажей, используя параметрически эффективные модули в слоях модели DiT.
DREAM RUNNER внедряет новый модуль SR3AI для генерации видео:
Региональная 3D внимательность: Модуль SR3AI позволяет управлять различными аспектами генерации видео, включая детализированные семантические переходы между кадрами и контроль движения объектов в пределах 3D внимательных слоев.
Инъекция приоритетов: Приоритеты, обученные на основе поиска, интегрируются в соответствующие регионы видео, обеспечивая плавные и естественные переходы между различными действиями и состояниями объектов.
Мы провели сравнительный анализ DREAM RUNNER с предыдущими методами на нашем новом датасете DreamStorySet:
Сравнение с VideoDirectorGPT и VLogger: DREAM RUNNER показал улучшение на 13.1% по CLIP score и 8.56% по ViCLIP score по сравнению с VLogger, подчеркивая его способность к созданию более согласованных и точных видео.
Плавные переходы: Модель обеспечила улучшение на 27.2% по DINO score, демонстрируя эффективность в создании плавных переходов между событиями внутри одной сцены.
DREAM RUNNER также был адаптирован для задачи композитной генерации текст-в-видео:
Превосходство над базовыми методами: На T2V-CompBench, DREAM RUNNER превзошел базовые методы по всем метрикам, включая связывание атрибутов, движения и взаимодействия объектов.
Сравнение с закрытыми моделями: Несмотря на то, что модель основана на открытом источнике, DREAM RUNNER показал результаты, сравнимые или превосходящие закрытые модели в некоторых аспектах, что подчеркивает потенциал подхода к улучшению открытых моделей до уровня закрытых.
DREAM RUNNER представляет собой инновационный подход к генерации видео по сценарию, который значительно улучшает качество, согласованность и плавность переходов между действиями. Использование LLM для планирования, поиск движений и региональная диффузия с инъекцией приоритетов позволяют создавать видео, которые точно отражают сюжетные линии и обеспечивают богатый визуальный опыт. Эксперименты подтверждают, что DREAM RUNNER превосходит существующие методы, предлагая новые возможности для создания контента в медиа и развлекательной индустрии.