Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

В последние годы в области робототехники наблюдается заметный прогресс в разработке универсальных политик управления, основанных на моделях «визуализация-язык-действие» (Vision-Language-Action, VLA). Однако, несмотря на значительные достижения, эти модели все еще сталкиваются с проблемами при работе с пространственно-временной динамикой в интерактивной робототехнике. В этой статье мы рассмотрим подходы, предложенные в недавней работе, направленные на улучшение пространственно-временной осведомленности VLA моделей с использованием техники визуального трассирования.

Политики роботизированного манипулирования, как правило, обучаются на конкретных демонстрациях задач, что делает их менее эффективными при столкновении с новыми объектами, окружениями и инструкциями. Модели, такие как CLIP, LLaVA и GPT-4V, продемонстрировали впечатляющую обобщаемость в различных задачах, связанных с визуализацией и языком. Тем не менее, они не способны адекватно справляться с уникальными вызовами, связанными с манипуляцией роботами, такими как понимание кинематики и выполнение физических действий.

Модели VLA стремятся заполнить этот пробел, дообучая модели визуализации и языка для генерации действий управления роботами на основе больших наборов данных. Однако, несмотря на их потенциал, VLA-роботы часто испытывают трудности с поддержанием осведомленности о своих предыдущих движениях. Это приводит к решениям, основанным на текущих входных данных, а не на пространственной истории действий.

Визуальное трассирование

Для решения этой проблемы исследователи предложили метод визуального трассирования, который позволяет моделям VLA более эффективно учитывать исторические данные о движениях. Идея заключается в том, чтобы явно вычислять многоточечные временные траектории и накладывать их на входные изображения для моделей VLA. Это, как предполагается, обеспечит более полное понимание пространственно-временных отношений, что необходимо для выполнения манипуляционных задач.

Генерация визуальных трасс

Процесс генерации визуальных трасс включает в себя использование алгоритма отслеживания точек, такого как Co-Tracker, для извлечения плотных траекторий ключевых точек из последовательности исторических изображений. Эти траектории затем накладываются на оригинальные наблюдения робота, предоставляя модели визуальные подсказки о ее прошлых действиях и состоянии.

В результате, вместо простого объединения исторических кадров, визуальные трассы помогают модели сосредоточиться на наиболее важной информации, необходимой для принятия решений о следующих действиях.

Архитектура модели TraceVLA

Для реализации концепции визуального трассирования была разработана новая модель, названная TraceVLA. Эта модель была дообучена на базе OpenVLA с использованием собранного набора данных, содержащего 150 тысяч траекторий манипуляций роботов. Архитектура TraceVLA включает в себя визуальную энкодерную часть, которая преобразует входные изображения в эмбеддинги, и языковую модель, которая генерирует действия на основе этих эмбеддингов и визуальных подсказок.

Одной из ключевых особенностей TraceVLA является использование специального разделительного токена между оригинальным изображением и изображением с наложенными визуальными трассами. Это позволяет модели различать два типа входных данных и эффективно использовать их для генерации действий.

Эффективность и обобщаемость

Для оценки эффективности и обобщаемости модели TraceVLA были проведены эксперименты в различных средах, включая симуляции и реальные задачи с использованием робота WidowX. Результаты показали, что TraceVLA превосходит OpenVLA на 10% в симуляциях и в 3.5 раза в реальных задачах, демонстрируя высокую степень обобщаемости в различных условиях и сценариях.

Оценка в SimplerEnv

В симуляциях, проведенных в среде SimplerEnv, модели оценивались по двум основным критериям: визуальному соответствию и агрегации вариантов. Эти тесты позволили выявить, насколько хорошо модели справляются с различными изменениями в окружении, такими как освещение, текстуры и наличие отвлекающих объектов.

Результаты показали, что TraceVLA значительно улучшает производительность в условиях изменения фона и ориентации камеры, что подтверждает эффективность визуального трассирования в поддержании пространственно-временной осведомленности.

Реальные задачи

В реальных экспериментах с роботом WidowX были заданы четыре задачи, включая манипуляцию с различными объектами и выполнение инструкций на естественном языке. TraceVLA продемонстрировала высокую степень успешности, особенно в задачах, связанных с манипуляцией с незнакомыми объектами, такими как бананы и баклажаны.

Заключение

Работа, представленная в данной статье, продвигает вперед модели VLA, интегрируя визуальное трассирование для улучшения пространственно-временной осведомленности. Это позволяет моделям не только реагировать на текущие условия, но и учитывать историю своих действий, что критически важно для успешного выполнения сложных манипуляционных задач.

В будущем исследователи планируют расширить возможности моделей, интегрируя предсказание многоточечных пространственных траекторий, что позволит моделям не только реагировать, но и предвидеть действия с большей точностью. Эти достижения откроют новые горизонты в области робототехники и машинного обучения, способствуя созданию более универсальных и адаптивных систем управления.