Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Современные автономные транспортные средства требуют высокой точности и скорости восприятия окружающей среды для безопасной навигации. Одним из наиболее распространенных сенсоров, используемых для этой цели, является 3D LiDAR. Однако, несмотря на его высокую точность, данные, получаемые с помощью LiDAR, часто бывают разреженными, особенно в сложных сценариях вождения и в области затенения. Это приводит к необходимости завершения разреженных сцен для создания более полных и информативных 3D-представлений.

В последние годы диффузионные модели, известные своей стабильностью в обучении и высоким качеством генерации, начали использоваться для завершения 3D сцен LiDAR. Однако, несмотря на их успехи, эти модели страдают от медленной скорости выборки, что ограничивает их применение в реальных условиях, где необходима быстрая обработка данных. В данной статье мы представляем метод дистилляции, специально разработанный для моделей завершения сцен LiDAR, называемый ScoreLiDAR, который обеспечивает как эффективность, так и высокое качество завершения.

Проблема разреженности данных LiDAR

3D LiDAR собирает данные в виде облака точек, которое представляет собой набор трехмерных координат. Однако в реальных условиях, таких как городские улицы, данные могут быть неполными из-за различных факторов, таких как препятствия и отражения. Это разреженное облако точек затрудняет понимание структуры сцены, что делает необходимым использование методов завершения для восстановления недостающих данных.

Существующие методы завершения сцен LiDAR можно условно разделить на две категории: методы, основанные на глубине, и методы, основанные наSigned Distance Field (SDF). Первые стремятся восстановить плотные карты глубины из разреженных измерений, в то время как вторые представляют сцены в виде воксельных решеток. Однако оба подхода сталкиваются с ограничениями, связанными с потерей деталей или вычислительными затратами.

Диффузионные модели для завершения сцен LiDAR

Диффузионные модели представляют собой мощный инструмент для генерации данных, основанный на процессе добавления и удаления шума. В контексте завершения сцен LiDAR эти модели обучаются на разреженных данных, чтобы предсказать недостающие точки в облаке. Однако они требуют множественных итераций для достижения высококачественных результатов, что значительно увеличивает время обработки.

Обзор процесса диффузии

Процесс диффузии включает два основных этапа: прямую диффузию и обратное подавление шума. На первом этапе к исходным данным добавляется шум на различных временных шагах, в результате чего данные становятся разреженными и неразборчивыми. На втором этапе модель обучается удалять этот шум, восстанавливая при этом исходные данные.

Несмотря на эффективность диффузионных моделей, их медленная скорость выборки затрудняет применение в реальных сценариях, таких как автономное вождение, где требуется быстрая реакция на изменения в окружающей среде.

Метод дистилляции ScoreLiDAR

Основные идеи

ScoreLiDAR предлагает новый подход к дистилляции, который позволяет создавать более эффективные модели завершения сцен LiDAR. Метод дистилляции включает в себя обучение «учительской» модели, которая генерирует высококачественные результаты, и «ученической» модели, которая учится на выходах учительской модели, но с меньшим количеством шагов выборки.

Структурная потеря

Для улучшения качества завершения мы вводим новую концепцию, называемую структурной потерей. Эта потеря включает в себя два компонента: потерю на уровне сцены и потерю на уровне точек. Потеря на уровне сцены обеспечивает общее соответствие между завершенной сценой и истинной сценой, в то время как потеря на уровне точек помогает модели захватывать относительное расположение ключевых точек, что важно для сохранения геометрической структуры.

Эффективность

Эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30.55 секунд до 5.37 секунд на кадр, при этом достигая качества, сопоставимого с современными методами. Это более чем пятиразовое ускорение делает ScoreLiDAR жизнеспособным вариантом для применения в автономных транспортных средствах.

Результаты и обсуждение

Качественная оценка

Мы провели обширные эксперименты на наборах данных SemanticKITTI и KITTI-360, сравнивая ScoreLiDAR с передовыми методами завершения сцен. Результаты показывают, что ScoreLiDAR превосходит другие модели по двум основным метрикам: расстоянию Шамфера (CD) и дивергенции Дженсена-Шеннона (JSD), которые используются для измерения сходства между завершенной сценой и истинной.

Количественная оценка

В количественной оценке ScoreLiDAR показал значительное снижение как CD, так и JSD по сравнению с другими методами. Это подтверждает, что предложенный метод не только ускоряет процесс завершения, но и повышает качество выходных данных.

Визуализация результатов

Визуализация завершенных сцен показывает, что ScoreLiDAR более точно восстанавливает детали объектов, таких как автомобили и дорожные знаки, по сравнению с другими методами. Это особенно важно для автономных транспортных средств, которые должны точно распознавать объекты в их окружении.

Заключение

В данной статье мы представили ScoreLiDAR, новый метод дистилляции, специально разработанный для завершения 3D сцен LiDAR. Ввод структурной потери позволяет модели эффективно захватывать геометрическую информацию, что приводит к высококачественным результатам завершения с заметным ускорением процесса. Это открывает новые возможности для применения диффузионных моделей в реальных сценариях, таких как автономное вождение, где скорость и точность критически важны.

Перспективы

В будущем мы планируем исследовать возможности улучшения обучающих процессов для ScoreLiDAR, а также возможности интеграции семантической информации для более точного завершения сцен. Это может привести к дальнейшему улучшению качества и эффективности, что является ключевым для автономных транспортных средств.

Статья на arxiv Оригинал pdf diffusion scene completion

Ай Дайджест