Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие способности понимания и рассуждения, работая с комплексными языковыми и визуальными данными. Эти достижения стимулируют видение создания универсального роботизированного MLLM, который может понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка MLLM для реальных робототехнических платформ сталкивается с серьезными вызовами из-за ограниченных вычислительных и памяти ресурсов, доступных на этих платформах. В то время как инференция MLLM требует хранения миллиардов параметров и выполнения интенсивных вычислений, что накладывает значительные требования к аппаратному обеспечению.

В данной статье мы рассмотрим подход, который позволяет снизить эти требования, используя динамическую раннюю остановку инференции на основе текущей ситуации. Этот метод, названный DeeR-VLA (Dynamic Early-Exit for Robotic Vision-Language-Action Model), автоматически адаптирует размер активированной MLLM, основываясь на сложности задачи, тем самым избегая излишних вычислений.

Основные Концепции DeeR-VLA

Динамическая Ранняя Остановка

Основная идея DeeR-VLA заключается в том, чтобы использовать меньшие модели для менее сложных ситуаций, где это возможно, и активировать более крупные модели только тогда, когда это действительно необходимо. Это достигается через архитектуру с множественными выходами (multi-exit architecture), где модель может завершить обработку на любом уровне, как только будет достигнут достаточный уровень понимания ситуации.

Архитектура с Множественными Выходами

DeeR-VLA вводит архитектуру MLLM, которая включает в себя несколько промежуточных выходов. Это позволяет модели прекратить обработку данных, как только будет получено достаточно информации для выполнения задачи, тем самым снижая вычислительные затраты. Визуальный и языковой входные данные обрабатываются параллельно, и на каждом уровне MLLM можно получить представление данных, которое затем используется для предсказания действия робота.

Критерии Раннего Завершения

Для определения момента остановки используются специальные алгоритмы, которые устанавливают критерии раннего завершения, учитывая требования к среднему вычислительному времени (то есть, потребление энергии), пиковой вычислительной мощности (то есть, задержка) и использованию памяти GPU. Эти критерии позволяют DeeR-VLA эффективно работать в условиях ограниченных ресурсов, сохраняя при этом высокую производительность.

Обучение и Интеграция Временной Информации

Для интеграции временной информации и предсказания действий разумным образом, DeeR-VLA использует специализированный метод обучения. Этот метод включает в себя обучение на основе случайной выборки из всех возможных выходов, что минимизирует разницу между обучением и динамической инференцией. Также вводятся вспомогательные функции потерь (auxiliary losses) для оптимизации промежуточных представлений, что улучшает предсказание действий на каждом уровне модели.

Эксперименты и Результаты

На бенчмарке CALVIN для манипуляции роботами, DeeR-VLA показал значительное снижение вычислительных затрат и использования памяти GPU на 5.2-6.5 раз и 2-6 раз соответственно, без ухудшения производительности. Это подчеркивает потенциал DeeR-VLA для использования на платформах с ограниченными ресурсами, делая возможным применение MLLM в реальных робототехнических системах.

Заключение

DeeR-VLA предлагает новый подход к использованию MLLM в робототехнике, где динамическая адаптация размера модели к текущей ситуации позволяет значительно снизить требования к вычислительным ресурсам. Это не только делает возможным применение сложных моделей на ограниченных платформах, но и открывает путь к более широкому внедрению MLLM в робототехнические системы, где энергоэффективность и быстродействие критически важны.

Таким образом, DeeR-VLA представляет собой важный шаг вперед в направлении создания универсальных роботизированных систем, способных эффективно взаимодействовать с человеческими инструкциями и физическим миром, используя мощные возможности MLLM.

Статья на arxiv Оригинал pdf efficiency vision robotics

Ай Дайджест