Свежая выжимка ml и AI статей - каждый день
Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие способности понимания и рассуждения, работая с комплексными языковыми и визуальными данными. Эти достижения стимулируют видение создания универсального роботизированного MLLM, который может понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка MLLM для реальных робототехнических платформ сталкивается с серьезными вызовами из-за ограниченных вычислительных и памяти ресурсов, доступных на этих платформах. В то время как инференция MLLM требует хранения миллиардов параметров и выполнения интенсивных вычислений, что накладывает значительные требования к аппаратному обеспечению.
В данной статье мы рассмотрим подход, который позволяет снизить эти требования, используя динамическую раннюю остановку инференции на основе текущей ситуации. Этот метод, названный DeeR-VLA (Dynamic Early-Exit for Robotic Vision-Language-Action Model), автоматически адаптирует размер активированной MLLM, основываясь на сложности задачи, тем самым избегая излишних вычислений.
Основная идея DeeR-VLA заключается в том, чтобы использовать меньшие модели для менее сложных ситуаций, где это возможно, и активировать более крупные модели только тогда, когда это действительно необходимо. Это достигается через архитектуру с множественными выходами (multi-exit architecture), где модель может завершить обработку на любом уровне, как только будет достигнут достаточный уровень понимания ситуации.
DeeR-VLA вводит архитектуру MLLM, которая включает в себя несколько промежуточных выходов. Это позволяет модели прекратить обработку данных, как только будет получено достаточно информации для выполнения задачи, тем самым снижая вычислительные затраты. Визуальный и языковой входные данные обрабатываются параллельно, и на каждом уровне MLLM можно получить представление данных, которое затем используется для предсказания действия робота.
Для определения момента остановки используются специальные алгоритмы, которые устанавливают критерии раннего завершения, учитывая требования к среднему вычислительному времени (то есть, потребление энергии), пиковой вычислительной мощности (то есть, задержка) и использованию памяти GPU. Эти критерии позволяют DeeR-VLA эффективно работать в условиях ограниченных ресурсов, сохраняя при этом высокую производительность.
Для интеграции временной информации и предсказания действий разумным образом, DeeR-VLA использует специализированный метод обучения. Этот метод включает в себя обучение на основе случайной выборки из всех возможных выходов, что минимизирует разницу между обучением и динамической инференцией. Также вводятся вспомогательные функции потерь (auxiliary losses) для оптимизации промежуточных представлений, что улучшает предсказание действий на каждом уровне модели.
На бенчмарке CALVIN для манипуляции роботами, DeeR-VLA показал значительное снижение вычислительных затрат и использования памяти GPU на 5.2-6.5 раз и 2-6 раз соответственно, без ухудшения производительности. Это подчеркивает потенциал DeeR-VLA для использования на платформах с ограниченными ресурсами, делая возможным применение MLLM в реальных робототехнических системах.
DeeR-VLA предлагает новый подход к использованию MLLM в робототехнике, где динамическая адаптация размера модели к текущей ситуации позволяет значительно снизить требования к вычислительным ресурсам. Это не только делает возможным применение сложных моделей на ограниченных платформах, но и открывает путь к более широкому внедрению MLLM в робототехнические системы, где энергоэффективность и быстродействие критически важны.
Таким образом, DeeR-VLA представляет собой важный шаг вперед в направлении создания универсальных роботизированных систем, способных эффективно взаимодействовать с человеческими инструкциями и физическим миром, используя мощные возможности MLLM.