Свежая выжимка ml и AI статей - каждый день
Современные методы управления роботами на основе обучения с подкреплением часто фокусируются на узко определённых задачах в фиксированных средах, что ограничивает их способность к обобщению на новые объекты и инструкции. Модели визуального языка (VLM) демонстрируют сильные способности к пониманию сцен и планированию, но не могут генерировать действия, адаптированные к конкретным конфигурациям роботов. Чтобы преодолеть эти ограничения, появились модели визуально-языкового действия (VLA), которые пытаются объединить визуальные и языковые данные для генерации адаптивных действий. Однако существующие VLA модели сталкиваются с трудностями, связанными с пространственным прогнозированием и планированием задач.
В этой статье мы рассматриваем новую модель, названную E,M,M,A,-,X, которая использует иерархическую базу данных манипуляций с роботами и включает в себя усовершенствованную цепочку размышлений и пространственное прогнозирование. Эта модель нацелена на улучшение выполнения сложных задач, требующих пространственного мышления, что критично для реальных сценариев взаимодействия роботов с окружающей средой.
В рамках обучения имитации политика моделируется как VLA, которая предсказывает действия на основе состояния, состоящего из визуальных данных и текстовых инструкций. Цель заключается в том, чтобы минимизировать разницу между предсказанными действиями и действиями эксперта. Это требует создания обширного набора данных, состоящего из демонстраций, где каждая демонстрация включает в себя последовательность состояний и соответствующих действий.
Для улучшения выполнения задач мы предлагаем иерархическую структуру, которая разбивает общую задачу на более мелкие подзадачи. Каждая подзадача включает в себя последовательность состояний и действий, что позволяет модели более эффективно обрабатывать сложные задачи. Это позволяет лучше согласовать движения манипулятора с намерениями подзадач, что повышает общую эффективность выполнения.
Одной из ключевых особенностей нашей модели является сегментация траекторий на основе состояний захвата и движения робота. Это позволяет избежать проблем с «галлюцинациями», возникающими при генерации подзадач. Мы используем алгоритм HDBSCAN для сегментации данных, что позволяет выявлять различные паттерны движения в данных.
После сегментации мы создаем данные планирования, включая 2D позиции захвата и 3D движения, необходимые для выполнения подзадач. Это позволяет модели предсказывать будущее положение захвата и планировать движение, что критично для выполнения задач в реальном времени.
Мы обучаем модель E,M,M,A,-,X, используя построенную иерархическую базу данных, что позволяет значительно улучшить способность к пространственному прогнозированию и планированию задач. В процессе обучения модель использует как визуальные, так и текстовые данные для генерации подзадач и обоснований, что улучшает понимание текущей ситуации и задач.
Мы проводим эксперименты на реальном роботе WidowX-250, который представляет собой стандартный тест для оценки обобщающих способностей роботизированных политик. Каждая задача выполняется в идентичных условиях, чтобы обеспечить консистентность.
Результаты показывают, что E,M,M,A,-,X значительно превосходит существующие модели, такие как OpenVLA и ECoT, особенно в задачах, требующих пространственного мышления. Наша модель показала улучшение на 24.17% в уровне успеха задач и на 26.25% в половинном уровне успеха.
Мы провели анализ различных компонентов модели, таких как сегментация, пространственное прогнозирование и основанная цепочка размышлений. Результаты показали, что каждый из этих компонентов значительно влияет на общую производительность модели.
Модель E,M,M,A,-,X представляет собой значительный шаг вперёд в области многомодального управления роботами. Она демонстрирует улучшенные способности к пространственному прогнозированию и планированию задач, что критично для успешного выполнения сложных манипуляций в реальных условиях. Однако, несмотря на успехи, существуют ограничения, такие как время задержки, которые необходимо учитывать в будущих исследованиях.
В дальнейшем мы планируем исследовать возможности улучшения обобщающих способностей модели, а также оптимизировать её производительность для снижения времени задержки. Также будет полезно интегрировать более надежные методы обнаружения и сегментации захвата, чтобы повысить точность модели в сложных сценариях.