Новая Парадигма Оценки Глубины: PromptDepthAnything

Оценка глубины является одной из ключевых задач в области компьютерного зрения и робототехники. Традиционно методы оценивания глубины сталкиваются с множеством проблем, включая неоднозначность масштаба и отсутствие точной метрики. В последние годы наблюдается значительный прогресс в области однокамерной оценки глубины, однако многие из этих методов все еще не способны обеспечить точные метрики глубины, что ограничивает их применение в таких областях, как автономное вождение и манипуляция роботами.

В данной статье мы представляем новую парадигму для оценки метрической глубины, названную PromptDepthAnything. Этот метод использует низкозатратный LiDAR в качестве "подсказки" для глубинной модели, что позволяет достигать точной оценки глубины с разрешением до 4K. Мы подробно рассмотрим архитектуру, методику тренировки и результаты, которые были достигнуты с использованием данного подхода.

Основные Концепции

Понятие Подсказок

Подсказки играют критическую роль в раскрытии потенциала языковых и визуальных моделей для выполнения специфических задач. В контексте оценки глубины, мы вводим понятие "подсказки" для глубинных моделей, чтобы улучшить их производительность при оценке метрической глубины. Мы используем низкозатратный LiDAR как подсказку, так как он предоставляет точную информацию о масштабе и широко доступен, например, в современных мобильных устройствах.

Архитектура Fusion

Центральным элементом нашего метода является архитектура "fusion", которая интегрирует данные LiDAR на нескольких масштабах в процессе декодирования глубины. Эта архитектура позволяет эффективно использовать информацию о глубине, полученную от LiDAR, для улучшения точности оценки глубины. Мы применяем многомасштабный подход, что позволяет модели учитывать детали на разных уровнях разрешения.

Тренировочный Процесс

Для тренировки PromptDepthAnything требуется как данные LiDAR, так и точные данные глубины (GT). Однако существующие синтетические наборы данных часто не содержат LiDAR-данные, а реальные данные LiDAR могут иметь неточные аннотации глубины. Чтобы преодолеть эти проблемы, мы предлагаем масштабируемый тренировочный процесс, который включает в себя симуляцию LiDAR и генерацию псевдо-GT данных для реальных сцен.

Потеря Глубины с Учетом Ребер

Для улучшения качества оценки глубины мы вводим потерю глубины с учетом ребер, которая использует градиенты псевдо-GT глубины. Эта потеря позволяет модели фокусироваться на точных границах объектов, что особенно важно в текстурно бедных областях.

Связанные Работы

Ранее существующие методы оценки глубины, такие как традиционные подходы, полагались на ручные признаки, что ограничивало их производительность. С приходом глубокого обучения наблюдается значительный прогресс, однако многие из этих моделей по-прежнему страдают от проблем с обобщением. Новые подходы, такие как использование диффузионных моделей, показывают многообещающие результаты, но остаются масштабно-агностичными.

Методология

Основная Архитектура

PromptDepthAnything строится на основе глубинной модели, которая использует ViT (Vision Transformer) в качестве основы. Мы добавляем блоки интеграции подсказок для обработки данных LiDAR на разных масштабах. Это позволяет модели эффективно использовать информацию о глубине для генерации более точных оценок.

Симуляция LiDAR

Для синтетических данных мы применяем метод симуляции LiDAR, который создает низкоразрешенные и шумные карты глубины. Этот подход позволяет избежать проблем, связанных с обучением на чистых данных, и обеспечивает более реалистичное представление о том, как будет работать модель в реальных условиях.

Генерация Псевдо-GT

Для реальных данных мы используем методы реконструкции, такие как Zip-NeRF, для генерации псевдо-GT глубины. Это позволяет получить высококачественные данные глубины, которые можно использовать для тренировки модели.

Обучение

Обучение модели включает в себя начальную фазу настройки, после которой следует основное обучение, где мы используем данные LiDAR и псевдо-GT для достижения высокой точности. Мы применяем оптимизатор AdamW с различными скоростями обучения для разных частей модели, что позволяет достичь стабильной и быстрой сходимости.

Эксперименты

Настройка Экспериментов

Мы проводим эксперименты на нескольких наборах данных, включая ARKitScenes и ScanNet++. Эти наборы данных обеспечивают разнообразные условия для оценки производительности модели. Мы сравниваем результаты с существующими методами, чтобы продемонстрировать эффективность нашего подхода.

Результаты

Результаты показывают, что PromptDepthAnything значительно превосходит существующие методы по точности оценки глубины. Мы достигаем лучших показателей по всем основным метрикам, включая RMSE и L1, что подтверждает эффективность предложенной архитектуры и подхода к обучению.

Применение в Реальных Сценах

Кроме того, мы демонстрируем, что наш метод хорошо обобщается на новых сценах, включая сложные условия освещения и разнообразные объекты. Это подчеркивает универсальность и адаптивность модели.

Заключение и Будущие Направления

В данной работе мы представили новую парадигму для метрической оценки глубины, основанную на использовании подсказок от LiDAR. Мы продемонстрировали, что этот подход позволяет значительно улучшить точность оценки глубины и расширяет возможности применения в таких областях, как 3D-реконструкция и робототехническая манипуляция.

Тем не менее, существуют и ограничения, такие как трудности с обработкой длинной глубины и временные колебания данных LiDAR. В будущих исследованиях мы планируем рассмотреть более продвинутые методы обучения подсказок и расширить возможности модели для работы в сложных условиях.

Таким образом, PromptDepthAnything открывает новые горизонты в области оценки глубины, предлагая эффективные решения для актуальных задач в компьютерном зрении и робототехнике.

Статья на arxiv Оригинал pdf prompts models depth

Ай Дайджест