Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С увеличением спроса на погружающие приложения дополненной и виртуальной реальности (AR/VR) возросла необходимость в создании высококачественного панорамного видео. Эти технологии находят применение в таких областях, как цифровая реклама, носимые дисплеи и другие задачи, где контент часто требует широких или портретных форматов. Однако создание масштабируемых панорамных сцен представляет собой уникальные вызовы. Успешный подход должен обеспечивать пространственную масштабируемость, сохраняя при этом согласованность движений в панорамных сценах любого размера, что гарантирует бесшовный и погружающий опыт.

Современные методы генерации видео сталкиваются с двумя ключевыми проблемами: генерацией изображений с высоким разрешением или широким соотношением сторон и поддержанием консистентности движений и эффективности памяти в динамической генерации сцен, такой как синтез видео. Расширение генерации изображений до более высоких разрешений или более широких соотношений сторон требует значительных вычислительных ресурсов и больших наборов данных для обучения. Например, такие подходы, как SDXL, поддерживают более широкий диапазон соотношений сторон, но все еще сталкиваются с проблемами масштабируемости, особенно в случае ультрашироких соотношений сторон и более высокого разрешения.

В отличие от этого, задача генерации динамических сцен требует не только пространственной согласованности между кадрами, но и глобальной согласованности движений, что делает её еще более вычислительно затратной. Более того, модели генерации видео должны быть спроектированы с учетом эффективности памяти, поскольку синтез больших динамических сцен часто вызывает нагрузку на память, что ограничивает возможности реального времени.

В этой статье мы представляем DynamicScaler — единую, не требующую настройки, структуру для масштабируемого синтеза панорамных динамических сцен с бесшовным движением. Наш метод обеспечивает пространственную и временную согласованность на протяжении всего процесса генерации видео, используя механизм смещения окон, который равномерно распределяет шум по регионам, достигая пространственной масштабируемости, независимо от того, перекрываются они или нет, при этом сохраняя последовательное движение из пространства латентных шумов.

Проблематика генерации панорамных видео

Генерация динамических сцен в 360° панорамном поле зрения (FoV) представляет собой уникальные вызовы, включая:

  1. Широкое распределение контента: Для эквиректангулярных проекций (ERPs) на 360° × 180° FoV требуется более широкое распределение контента.
  2. Изогнутые паттерны движения: Паттерны движения в ERPs изогнуты, в отличие от прямолинейного движения в стандартных видео.
  3. Требования к непрерывности: Существуют требования к непрерывности на границах ERP, которые представляют собой одну и ту же меридиан.

Модели генерации видео, такие как 360DVD, адаптируют модели диффузии видео для панорамных данных в эквиректангулярном пространстве, но сталкиваются с проблемами низкого разрешения и артефактов интерполяции, что приводит к размытости и расхождению с оригинальным пространством движения.

Другие методы, такие как 4K4DGen и VividDream, пытаются анимировать сцены в перекрывающихся областях, но их фиксированное окно денойзинга ограничивает диапазон движений и согласованность между сценами. В частности, 4K4DGen сталкивается с ограничениями в диапазоне движений и требует процедур оптимизации, которые снижают эффективность.

DynamicScaler: Решение

DynamicScaler — это унифицированная, не требующая настройки структура для масштабируемого синтеза панорамных динамических сцен, обеспечивающая бесшовное движение. Мы предлагаем два ключевых компонента:

  1. Смещение окон денойзинга (Offset Shifting Denoiser, OSD): Этот метод синхронно денойзит панорамные динамические сцены, используя хорошо спроектированный механизм смещения окон, что обеспечивает плавные переходы и пространственную согласованность, сохраняя при этом точность движений и бесшовные переходы.

  2. Глобальное руководство по движению (Global Motion Guidance, GMG): Этот механизм гарантирует как локальную детализацию, так и глобальную непрерывность движений, что критически важно для достижения высококачественной генерации сцен.

Архитектура DynamicScaler

Архитектура DynamicScaler состоит из двух этапов:

  1. Этап низкого разрешения: Устанавливает грубую структуру движения для 360° настройки, включая панорамное проекционное денойзинг для инициализации движения, которое подходит для сферической панорамы.

  2. Этап увеличения разрешения: Использует большее количество смещенных окон для создания уточненной, высокоразрешающей панорамы с глобальным руководством по движению из низкоразрешающего видео.

Смещение окон денойзинга (OSD)

OSD представляет собой динамический подход к синтезу сцен, интегрируя несколько процессов диффузии в единую структуру. Это позволяет адаптировать процесс денойзинга по пространственным измерениям, изменяя путь смещения в панорамном пространстве. В отличие от существующих методов, которые ограничиваются фиксированными регионами, OSD позволяет синтезировать динамические сцены, включая 360° панорамные пространства.

Глобальное руководство по движению (GMG)

GMG структурирует общую динамику сцены, обеспечивая согласованность движений на высоком уровне. Мы применяем причинное глобальное руководство по движению, чтобы захватить высокоуровневые структуры движения в низком разрешении, а затем уточнить детали в процессе повышения разрешения.

Генерация 360° FoV панорам

DynamicScaler позволяет генерировать 360° FoV панорамы, используя механизм скользящего окна для денойзинга. Это гарантирует, что результирующая панорама охватывает полный 360° поле зрения, что делает её подходящей для погружающих приложений.

Эксперименты и результаты

Мы провели обширные эксперименты, чтобы продемонстрировать эффективность DynamicScaler по сравнению с существующими методами. Результаты показывают, что DynamicScaler превосходит 360DVD по всем метрикам, включая качество видео, динамический диапазон, плавность движений и временную согласованность.

Качественные результаты

DynamicScaler поддерживает широкий диапазон настроек и может генерировать видео бесконечной длины, в то время как другие методы ограничены генерацией только конечных видео. Мы оценили визуальное качество, выбирая случайные представления из 100 сгенерированных видео.

Количественные результаты

DynamicScaler генерирует панорамы произвольных размеров, поддерживая как прямоугольные, так и 360° FoV конфигурации, предлагая непревзойденную гибкость для различных приложений. Мы также провели пользовательские исследования, чтобы оценить видео по пяти критериям: графическое качество, согласованность кадров, непрерывность, распределение контента и паттерны движения.

Исследования абляции

Мы провели исследования абляции, чтобы оценить влияние каждого ключевого компонента в DynamicScaler. Результаты показывают, что полная методология последовательно превосходит все другие конфигурации по всем оценочным метрикам.

Заключение

DynamicScaler представляет собой мощное решение для масштабируемого синтеза панорамных динамических сцен. Наша структура обеспечивает эффективное денойзинг и согласованные переходы границ. Механизм глобального руководства по движению поддерживает локальную детализацию и глобальную непрерывность движений, обеспечивая превосходное качество контента и плавность движений. DynamicScaler превосходит существующие методы по масштабируемости и производительности, предлагая практическое решение без необходимости в обучении для создания высококачественного, погружающего динамического контента в AR/VR приложениях.