DiffusionDrive: Трунированная диффузионная модель для автономного вождения

Автономное вождение стало одной из самых обсуждаемых тем в области искусственного интеллекта и робототехники. Разработка систем, способных принимать решения на основе данных от сенсоров, открывает новые горизонты для применения технологий в реальных условиях. В последние годы диффузионные модели (Diffusion Models) зарекомендовали себя как мощные генеративные инструменты для обучения политике роботов, позволяя моделировать многомодовые распределения действий. В данной статье мы рассмотрим новую модель под названием DiffusionDrive, которая использует усовершенствованную диффузионную политику для достижения эффективного и качественного автономного вождения.

Проблематика

Существующие подходы к автономному вождению часто сталкиваются с проблемами, связанными с многомодовой природой поведения водителей и необходимостью быстрого реагирования в динамичных условиях дорожного движения. Например, традиционные методы планирования движений, основанные на правилах, могут быть неэффективными в сложных и изменяющихся сценариях. Многие современные системы, такие как Transfuser и VAD, стремятся решать эти проблемы, но часто ограничиваются регрессией к единственной траектории, что не учитывает неопределенности в поведении.

Диффузионные модели

Диффузионные модели предлагают альтернативный подход, который позволяет генерировать многомодовые действия, используя итеративный процесс денойзинга. Однако существующие модели, такие как vanilla diffusion policy, требуют значительных вычислительных ресурсов из-за большого количества шагов денойзинга, что делает их непрактичными для применения в реальном времени.

DiffusionDrive: Новое решение

Трунированная диффузионная политика

DiffusionDrive предлагает новую трунированную диффузионную политику, которая включает в себя предварительные многомодовые якоря и сокращает график диффузии. Это позволяет модели обучаться денойзингу от зашумленного Гауссовского распределения к многомодовому распределению действий вождения. В отличие от традиционных подходов, где требуется большое количество фиксированных якорей, новая модель использует меньший набор якорей, что значительно снижает вычислительные затраты.

Эффективный каскадный декодер

Для улучшения взаимодействия с контекстом сцены мы разработали эффективный каскадный декодер диффузии. Этот декодер не только обрабатывает структурированные запросы от модуля восприятия, но и взаимодействует с признаками, полученными из изображений с разных ракурсов, таких как вид сверху (Bird's Eye View) и перспективный вид (Perspective View). Это позволяет более точно учитывать информацию о текущей дорожной ситуации.

Результаты

DiffusionDrive демонстрирует значительное уменьшение числа шагов денойзинга — с 20 до всего лишь 2, что позволяет достигать реальной скорости работы в 45 кадров в секунду на графическом процессоре NVIDIA 4090. На наборе данных NAVSIM, который ориентирован на планирование, модель достигла 88,1% PDMS (Planning Decision Making Score), что является новым рекордом без дополнительных усовершенствований.

Методология

Формулировка задачи

Автономное вождение представляет собой задачу предсказания будущей траектории эго-автомобиля на основе сырых данных от сенсоров. Траектория представляется в виде последовательности контрольных точек, которые определяют путь движения.

Условная диффузионная модель

Условная диффузионная модель включает в себя процесс добавления шума к исходным данным, что позволяет постепенно преобразовывать зашумленные данные обратно в чистые. В процессе обучения модель использует информацию о контексте сцены для улучшения качества предсказаний.

Трунированная диффузия

В отличие от стандартной диффузии, трунированная диффузия начинается с зашумленного Гауссовского распределения, основанного на предварительных якорях. Это позволяет модели быстрее достигать желаемого поведения, сокращая количество шагов денойзинга и снижая вычислительные затраты.

Архитектура

Архитектура DiffusionDrive включает в себя модули для интеграции различных сенсорных данных и существующих модулей восприятия. Каскадный декодер диффузии обеспечивает взаимодействие с контекстом сцены, что улучшает качество предсказаний.

Эксперименты и результаты

Набор данных NAVSIM

Для оценки производительности модели мы использовали набор данных NAVSIM, который включает в себя сложные сценарии вождения с динамическими изменениями. DiffusionDrive демонстрирует выдающиеся результаты по сравнению с другими методами, такими как VADv2 и Hydra-MDP, обеспечивая более высокую точность и скорость работы.

Сравнение с другими методами

DiffusionDrive значительно превосходит предыдущие методы по показателям PDMS и разнообразия режимов. Например, модель достигает 88,1% PDMS, что на 7,2% выше, чем у VADv2, при этом количество якорей было сокращено с 8192 до 20.

Качественный анализ

Качественные результаты показывают, что DiffusionDrive способен генерировать разнообразные и правдоподобные траектории, что подтверждается визуализацией планирования в сложных сценариях. Модель демонстрирует высокое качество выполнения маневров, таких как смена полосы движения, что невозможно для традиционных методов.

Заключение

DiffusionDrive представляет собой значительный шаг вперед в области автономного вождения, предлагая новый подход к генерации многомодовых траекторий с использованием диффузионных моделей. Сокращение числа шагов денойзинга и внедрение эффективного каскадного декодера позволяют модели достигать высоких показателей качества и скорости работы в реальном времени. Эти достижения открывают новые возможности для применения автономных систем в сложных и динамичных условиях дорожного движения.

Статья на arxiv Оригинал pdf diffusion learning policy

Ай Дайджест