MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Синтез новых видов (Novel View Synthesis, NVS) из одного изображения представляет собой сложную задачу, требующую понимания пространственной структуры объектов и их взаимосвязей. Это особенно актуально для приложений в области дополненной реальности (AR), виртуальной реальности (VR) и дизайна интерьеров. В последние годы значительные успехи были достигнуты в синтезе новых видов для отдельных объектов, однако работа с многопредметными сценами остается сложной задачей. В данной статье мы рассмотрим метод MOVIS, который направлен на улучшение синтеза новых видов для многопредметных сцен, используя диффузионные модели.

Проблема многопредметного NVS

Существующие методы NVS, основанные на диффузионных моделях, в основном ограничены работой с одним объектом. При попытке применить эти методы к многопредметным сценам возникают проблемы с неправильным расположением объектов, искажением форм и несоответствием внешнего вида объектов при изменении ракурса. Основной причиной этих проблем является отсутствие структурной осведомленности модели о взаимосвязях между объектами.

Структурная осведомленность

Структурная осведомленность подразумевает способность модели понимать и учитывать пространственные отношения между объектами в сцене. В многопредметных сценах необходимо учитывать как высокоуровневую информацию (например, расположение и ориентацию объектов), так и детальную информацию о каждом объекте (например, его форму и текстуру). Это делает задачу синтеза новых видов значительно более сложной по сравнению с задачами, связанными с одним объектом.

MOVIS: Архитектура и подход

MOVIS (Multi-Object Novel View Synthesis) предлагает несколько ключевых улучшений для повышения структурной осведомленности диффузионной модели при синтезе новых видов для многопредметных сцен.

1. Введение структурно-осведомленных признаков

Первая часть нашего подхода заключается во внедрении структурно-осведомленных признаков, таких как карты глубины и маски объектов, в модель. Эти данные помогают модели лучше понимать пространственные отношения между объектами. Маски объектов предоставляют информацию о форме и расположении объектов, тогда как карты глубины содержат информацию о расстоянии до каждого объекта.

2. Вспомогательная задача предсказания масок объектов

Второй аспект заключается в введении вспомогательной задачи, в рамках которой модель одновременно предсказывает маски объектов для новых видов. Это позволяет модели лучше различать объекты и их расположение, что критически важно для достижения качественного синтеза.

3. Структурно-ориентированный планировщик временных шагов

Третий аспект — это разработка структурно-ориентированного планировщика временных шагов, который помогает сбалансировать обучение глобального размещения объектов и восстановление мелких деталей. На начальных этапах обучения планировщик акцентирует внимание на глобальной структуре, а на более поздних этапах — на деталях объектов.

Оценка качества синтеза

Для систематической оценки качества синтеза новых видов мы предлагаем несколько метрик, включая кросс-визуальную согласованность и размещение объектов в новых видах. Эти метрики позволяют более точно оценить, насколько хорошо модель восстанавливает формы и текстуры объектов, а также их правильное расположение в сцене.

Эксперименты и результаты

Мы провели обширные эксперименты на сложных синтетических и реальных датасетах, включая C3DFS, Room-Texture, Objaverse и SUNRGB-D. Результаты показывают, что MOVIS превосходит существующие методы, такие как Zero-1-to-3 и ZeroNVS, по всем ключевым метрикам, связанным с качеством синтеза, включая PSNR, SSIM и LPIPS.

Кроме того, MOVIS демонстрирует сильные способности к обобщению на невидимых датасетах, что подчеркивает его потенциал для применения в реальных сценариях.

Заключение

MOVIS представляет собой значительный шаг вперед в области синтеза новых видов для многопредметных сцен. Внедрение структурно-осведомленных признаков, вспомогательной задачи предсказания масок объектов и структурно-ориентированного планировщика временных шагов позволило улучшить качество синтеза и обеспечить более высокую согласованность между разными видами. Мы уверены, что наш подход может стать основой для дальнейших исследований и разработок в области NVS, особенно в контексте сложных многопредметных сцен.

Перспективы

В будущем мы планируем исследовать возможности интеграции дополнительных данных, таких как текстуры фона, а также улучшить методы обработки для повышения качества синтеза в реальных условиях. Мы также рассматриваем возможность применения MOVIS в задачах редактирования изображений, таких как удаление объектов и реконструкция сцен.

Статья на arxiv Оригинал pdf training tasks consistency

Ай Дайджест