NVComposer: Новая эра в синтезе новых видов

Синтез новых видов (NVS) представляет собой важную задачу в области компьютерного зрения и генеративного моделирования. С недавними достижениями в области генеративных моделей, методы NVS привлекли значительное внимание благодаря своей способности синтезировать новые виды из одного или нескольких изображений. Однако существующие методы часто требуют внешнего выравнивания многовидовых данных, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или окклюзий между видами.

В этой статье мы рассмотрим NVComposer — новый подход к синтезу новых видов, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели имплицитно выводить пространственные и геометрические отношения между множественными условными видами, благодаря введению двух ключевых компонентов: 1) двухпоточной диффузионной модели, которая одновременно генерирует целевые новые виды и условные позы камер, и 2) модуля выравнивания признаков, учитывающего геометрию, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения.

Проблема внешнего выравнивания

Существующие методы NVS, такие как ViewCrafter и DUSt3R, полагаются на точные позы условных изображений, полученные через явную оценку позы или предварительное восстановление. Это создает проблемы в тех случаях, когда области перекрытия между изображениями малы и труднодоступны для точного выравнивания. В таких ситуациях качество синтезируемых видов значительно ухудшается. NVComposer решает эту проблему, позволяя модели самостоятельно оценивать позы камер, что делает процесс более устойчивым к недостаткам в данных.

Архитектура NVComposer

NVComposer состоит из двух основных компонентов, как показано на рисунке 2:

Двухпоточная диффузионная модель: Эта модель принимает на вход набор изображений и их позы, генерируя новые виды, одновременно предсказывая относительные позы камер для условных изображений. Это позволяет модели понимать пространственное расположение условных изображений в сцене и использовать их для корректного синтеза новых видов.
Модуль выравнивания признаков, учитывающий геометрию: Этот модуль использует геометрические приоритеты, извлеченные из предобученных плотных стереомоделей, чтобы улучшить качество синтезируемых видов. Он выравнивает внутренние признаки модели с предсказанными 3D-признаками, что позволяет модели более точно учитывать пространственные отношения между видами.

Двухпоточная диффузионная модель

Модель принимает на вход T элементов, каждый из которых представляет собой изображение в текущей сцене с соответствующей аннотацией позы. Эти элементы разбиваются на две группы: целевые сегменты и условные сегменты. Целевые сегменты содержат новые виды, которые необходимо сгенерировать, в то время как условные сегменты содержат изображения, используемые для условного синтеза.

Для каждого изображения в целевом сегменте модель предсказывает шум, который будет добавлен к изображению, и затем восстанавливает его, используя информацию из условных изображений. Это позволяет модели генерировать новые виды, сохраняя согласованность с условными изображениями.

Модуль выравнивания признаков

Модуль выравнивания признаков использует информацию о геометрии, извлеченную из плотных стереомоделей, чтобы улучшить качество синтезируемых изображений. Он минимизирует среднеквадратичную ошибку между внутренними признаками модели и предсказанными 3D-признаками, что позволяет модели лучше понимать пространственные отношения между различными видами.

Обучение NVComposer

Для обучения NVComposer используется смешанный набор данных, состоящий из различных источников, включая видео и 3D-данные. Модель обучается на изображениях с минимальным перекрытием, что позволяет ей эффективно использовать информацию из нескольких видов.

Обучение включает в себя две основные задачи: синтез новых видов и оценка поз. Модель обучается с помощью метода обратного распространения ошибки, что позволяет ей постепенно улучшать свои предсказания как для изображений, так и для поз.

Результаты и сравнение с другими методами

Эксперименты показывают, что NVComposer превосходит существующие методы NVS по качеству синтезируемых видов. При увеличении числа условных изображений качество синтезируемых видов значительно улучшается, что подтверждает способность модели к имплицитному выводу пространственных отношений.

Оценка качества

Для оценки качества синтезируемых изображений используются несколько метрик, включая PSNR (отношение сигнал/шум), SSIM (индекс структурного сходства) и DISTS (перцептивное расстояние). Результаты показывают, что NVComposer значительно превосходит другие методы, особенно в сложных условиях с малым перекрытием.

Примеры визуализации

Визуализация результатов синтеза подтверждает высокое качество изображений, сгенерированных NVComposer. Сравнение с другими методами показывает, что NVComposer создает более реалистичные и детализированные виды, что делает его подходящим для применения в реальных сценариях.

Заключение

NVComposer представляет собой значительный шаг вперед в области синтеза новых видов, устраняя необходимость в явном внешнем выравнивании. Благодаря своей архитектуре и способности к имплицитному выводу пространственных отношений, NVComposer обеспечивает более гибкие и доступные системы генерации NVS. Эксперименты показывают, что наш подход не только улучшает качество синтезируемых видов, но и открывает новые возможности для применения в различных областях, таких как виртуальная реальность и создание контента.

Таким образом, NVComposer не только решает существующие проблемы в области NVS, но и задает новые стандарты для будущих исследований и разработок в этой области.

Статья на arxiv Оригинал pdf models alignment diffusion

Ай Дайджест