Свежая выжимка ml и AI статей - каждый день
Оценка глубины является одной из ключевых задач в области компьютерного зрения и робототехники. Традиционно методы оценивания глубины сталкиваются с множеством проблем, включая неоднозначность масштаба и отсутствие точной метрики. В последние годы наблюдается значительный прогресс в области однокамерной оценки глубины, однако многие из этих методов все еще не способны обеспечить точные метрики глубины, что ограничивает их применение в таких областях, как автономное вождение и манипуляция роботами.
В данной статье мы представляем новую парадигму для оценки метрической глубины, названную PromptDepthAnything. Этот метод использует низкозатратный LiDAR в качестве "подсказки" для глубинной модели, что позволяет достигать точной оценки глубины с разрешением до 4K. Мы подробно рассмотрим архитектуру, методику тренировки и результаты, которые были достигнуты с использованием данного подхода.
Подсказки играют критическую роль в раскрытии потенциала языковых и визуальных моделей для выполнения специфических задач. В контексте оценки глубины, мы вводим понятие "подсказки" для глубинных моделей, чтобы улучшить их производительность при оценке метрической глубины. Мы используем низкозатратный LiDAR как подсказку, так как он предоставляет точную информацию о масштабе и широко доступен, например, в современных мобильных устройствах.
Центральным элементом нашего метода является архитектура "fusion", которая интегрирует данные LiDAR на нескольких масштабах в процессе декодирования глубины. Эта архитектура позволяет эффективно использовать информацию о глубине, полученную от LiDAR, для улучшения точности оценки глубины. Мы применяем многомасштабный подход, что позволяет модели учитывать детали на разных уровнях разрешения.
Для тренировки PromptDepthAnything требуется как данные LiDAR, так и точные данные глубины (GT). Однако существующие синтетические наборы данных часто не содержат LiDAR-данные, а реальные данные LiDAR могут иметь неточные аннотации глубины. Чтобы преодолеть эти проблемы, мы предлагаем масштабируемый тренировочный процесс, который включает в себя симуляцию LiDAR и генерацию псевдо-GT данных для реальных сцен.
Для улучшения качества оценки глубины мы вводим потерю глубины с учетом ребер, которая использует градиенты псевдо-GT глубины. Эта потеря позволяет модели фокусироваться на точных границах объектов, что особенно важно в текстурно бедных областях.
Ранее существующие методы оценки глубины, такие как традиционные подходы, полагались на ручные признаки, что ограничивало их производительность. С приходом глубокого обучения наблюдается значительный прогресс, однако многие из этих моделей по-прежнему страдают от проблем с обобщением. Новые подходы, такие как использование диффузионных моделей, показывают многообещающие результаты, но остаются масштабно-агностичными.
PromptDepthAnything строится на основе глубинной модели, которая использует ViT (Vision Transformer) в качестве основы. Мы добавляем блоки интеграции подсказок для обработки данных LiDAR на разных масштабах. Это позволяет модели эффективно использовать информацию о глубине для генерации более точных оценок.
Для синтетических данных мы применяем метод симуляции LiDAR, который создает низкоразрешенные и шумные карты глубины. Этот подход позволяет избежать проблем, связанных с обучением на чистых данных, и обеспечивает более реалистичное представление о том, как будет работать модель в реальных условиях.
Для реальных данных мы используем методы реконструкции, такие как Zip-NeRF, для генерации псевдо-GT глубины. Это позволяет получить высококачественные данные глубины, которые можно использовать для тренировки модели.
Обучение модели включает в себя начальную фазу настройки, после которой следует основное обучение, где мы используем данные LiDAR и псевдо-GT для достижения высокой точности. Мы применяем оптимизатор AdamW с различными скоростями обучения для разных частей модели, что позволяет достичь стабильной и быстрой сходимости.
Мы проводим эксперименты на нескольких наборах данных, включая ARKitScenes и ScanNet++. Эти наборы данных обеспечивают разнообразные условия для оценки производительности модели. Мы сравниваем результаты с существующими методами, чтобы продемонстрировать эффективность нашего подхода.
Результаты показывают, что PromptDepthAnything значительно превосходит существующие методы по точности оценки глубины. Мы достигаем лучших показателей по всем основным метрикам, включая RMSE и L1, что подтверждает эффективность предложенной архитектуры и подхода к обучению.
Кроме того, мы демонстрируем, что наш метод хорошо обобщается на новых сценах, включая сложные условия освещения и разнообразные объекты. Это подчеркивает универсальность и адаптивность модели.
В данной работе мы представили новую парадигму для метрической оценки глубины, основанную на использовании подсказок от LiDAR. Мы продемонстрировали, что этот подход позволяет значительно улучшить точность оценки глубины и расширяет возможности применения в таких областях, как 3D-реконструкция и робототехническая манипуляция.
Тем не менее, существуют и ограничения, такие как трудности с обработкой длинной глубины и временные колебания данных LiDAR. В будущих исследованиях мы планируем рассмотреть более продвинутые методы обучения подсказок и расширить возможности модели для работы в сложных условиях.
Таким образом, PromptDepthAnything открывает новые горизонты в области оценки глубины, предлагая эффективные решения для актуальных задач в компьютерном зрении и робототехнике.