Ай Дайджест - категория autoregession

Moto: Латентные токены движения как связующий язык для манипуляции роботами

Недавние разработки в области больших языковых моделей, предобученных на обширных корпусах, продемонстрировали значительные успехи в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время была ограничена высокой стоимостью данными с метками действий. Мы задаемся вопросом: учитывая обилие видео данных, содержащих знания, связанные с взаимодействием и доступных в качестве богатого "корпуса", можно ли эффективно применить аналогичный подход генеративного предобучения для улучшения обучения роботов? Ключевая задача заключается в том, чтобы определить эффективное представление для авторегрессионного предобучения, которое выгодно для задач манипуляции роботами. Вдохновленные тем, как люди осваивают новые навыки, наблюдая за динамическими окружениями, мы предлагаем, что эффективное обучение роботов должно подчеркивать знание, связанное с движением, которое тесно связано с низкоуровневыми действиями и является аппаратно-независимым, что облегчает перенос изученных движений на реальные действия робота. Для этой цели мы представляем Moto, который преобразует видеоконтент в скрытые последовательности токенов движения с помощью Латентного Токенизатора Движения, изучая мостовой "язык" движения из видео ненаблюдаемым образом. Мы предобучаем Moto-GPT через авторегрессию токенов движения, позволяя ему захватывать разнообразные визуальные знания о движении. После предобучения Moto-GPT демонстрирует многообещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траекторий через вероятность вывода. Для переноса усвоенных предварительных знаний о движении на реальные действия робота мы реализуем стратегию совместной донастройки, которая бесшовно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT демонстрирует превосходную устойчивость и эффективность на бенчмарках манипуляции роботами, подчеркивая его эффективность в переносе знаний с видеоданных на последующие задачи визуальной манипуляции.

2024-12-09robotics learning autoregession