Marigold-DC: Нулевое завершение глубины с помощью направленной диффузии

В последние годы технологии компьютерного зрения значительно продвинулись вперед, особенно в области оценки глубины и завершения глубины. Одним из наиболее многообещающих подходов является использование диффузионных моделей для решения задач, связанных с глубиной. В этой статье мы рассмотрим концепции, связанные с методом Marigold-DC, который представляет собой нулевое решение для завершения глубины с использованием направленной диффузии.

Завершение глубины — это задача преобразования разреженных измерений глубины в плотные карты глубины, используя в качестве ориентира изображение, обычно стандартное RGB или градации серого. Этот процесс имеет множество приложений в области компьютерного зрения, включая робототехнику, автономное вождение и моделирование 3D-городов. Однако традиционные методы, основанные на сверточных нейронных сетях (CNN) или трансформерах, часто страдают от плохой обобщающей способности при применении к новым доменам.

Marigold-DC представляет собой новое решение, которое использует предварительно обученную диффузионную модель для оценки глубины из одного изображения и интегрирует разреженные измерения глубины в процесс денойзинга. Этот подход позволяет достигать впечатляющих результатов, даже при наличии очень ограниченных данных.

Проблематика завершения глубины

Завершение глубины — это сложная задача, поскольку оно требует интерполяции недостающей информации на основе имеющихся данных. Традиционные методы часто основываются на интерполяции или использовании CNN, которые могут не обеспечивать адекватные результаты, особенно в сложных сценах. Кроме того, существующие методы часто требуют строгих условий, что делает их неэффективными при работе с данными, которые не соответствуют обучающему набору.

Marigold-DC предлагает новый взгляд на эту проблему, используя мощные визуальные приоритеты современных моделей оценки глубины. Вместо того чтобы рассматривать завершение глубины как задачу инпейнтинга разреженной глубины, Marigold-DC интерпретирует её как генерацию карты глубины, условленную на изображении.

Основные концепции Marigold-DC

1. Направленная диффузия

Marigold-DC использует класс моделей, известных как Denoising Diffusion Probabilistic Models (DDPM). Эти модели способны генерировать высококачественные образцы, начиная с случайного шума, и могут быть направлены на достижение определенных выходов, используя дополнительные сигналы. Это позволяет Marigold-DC эффективно использовать разреженные измерения глубины в процессе завершения.

2. Оптимизация в процессе тестирования

Одной из ключевых особенностей Marigold-DC является использование оптимизации в процессе тестирования. Это означает, что модель не требует дополнительного обучения или модификации архитектуры, что значительно упрощает процесс. Вместо этого, Marigold-DC динамически обновляет свои латентные представления на основе разреженных данных глубины в процессе инференса.

3. Обобщение без обучения

Marigold-DC демонстрирует отличные результаты в условиях нулевого обучения, что означает, что модель может эффективно работать с новыми данными, не требуя предварительного обучения на них. Это особенно важно в реальных приложениях, где данные могут сильно варьироваться.

Методология Marigold-DC

Формулировка задачи

В Marigold-DC задача завершения глубины формулируется как задача оценки глубины из одного изображения, где разреженные измерения глубины используются в качестве дополнительного сигнала. Модель Marigold генерирует предварительные карты глубины, которые затем уточняются на основе разреженных измерений.

Процесс инференса

Процесс инференса в Marigold-DC включает несколько этапов. Сначала изображение кодируется в латентное пространство с помощью предварительно обученного кодировщика. Затем случайный шум добавляется к латентному представлению, и в процессе денойзинга модель обновляет свои предсказания, учитывая разреженные измерения глубины.

Потеря и оптимизация

Для оценки качества предсказаний используется функция потерь, которая комбинирует среднюю абсолютную ошибку и среднюю квадратичную ошибку. Это позволяет модели не только минимизировать большие ошибки, но и улучшать мелкие детали предсказаний.

Результаты и обсуждение

В экспериментах, проведенных на нескольких наборах данных, Marigold-DC показал выдающиеся результаты по сравнению с традиционными методами завершения глубины. Модель успешно справляется с задачами, когда количество доступных измерений глубины крайне ограничено, что делает её особенно полезной в реальных сценариях.

Сравнение с другими методами

Marigold-DC была протестирована на нескольких стандартных наборах данных, включая NYU-DepthV2 и KITTI. В большинстве случаев, метод показал лучшие результаты по сравнению с другими современными подходами, такими как NLSPN и CompletionFormer. Это подтверждает гипотезу о том, что использование мощных визуальных приоритетов из современных моделей оценки глубины значительно улучшает результаты завершения глубины.

Применение в реальных условиях

Одним из главных преимуществ Marigold-DC является его способность работать в условиях, когда данные сильно варьируются. Это делает метод особенно подходящим для применения в робототехнике и автономном вождении, где условия могут меняться от одной сцены к другой.

Заключение

Marigold-DC представляет собой значительный шаг вперед в области завершения глубины, сочетая мощные визуальные приоритеты современных моделей оценки глубины с гибкостью и эффективностью, необходимыми для работы в реальных условиях. Метод демонстрирует отличные результаты в условиях нулевого обучения и открывает новые возможности для применения в различных областях компьютерного зрения.

В будущем, возможно, будут исследованы пути оптимизации времени вывода и уменьшения вычислительных затрат, что сделает Marigold-DC ещё более эффективным инструментом для решения задач завершения глубины в реальных сценариях.

Статья на arxiv Оригинал pdf completion diffusion monocular

Ай Дайджест