Обучение универсального управления позами гуманоидных роботов на основе видео

В последние годы наблюдается значительный прогресс в области робототехники и машинного обучения, особенно в контексте управления гуманоидными роботами. Исследование, проведенное группой ученых из Университета Южной Калифорнии и других учреждений, предлагает новый подход к обучению гуманоидных роботов с использованием огромного объема данных, полученных из человеческих видео. В данной статье мы рассмотрим ключевые аспекты этого исследования, включая создание большого набора данных Humanoid-X и разработку модели UH-1 для универсального управления позами гуманоидных роботов.

Гуманоидные роботы имеют уникальные кинематические структуры и множество степеней свободы (DoF), что делает их управление сложной задачей. Традиционные подходы, такие как обучение с подкреплением и телепортация, часто ограничены разнообразием симулированных сред и высокими затратами на сбор демонстрационных данных. Исследование предлагает использовать обширные видеоданные, которые могут служить источником семантической и движенческой информации, значительно улучшая обобщающие способности гуманоидных роботов.

Humanoid-X: Большой набор данных

Humanoid-X — это обширный набор данных, состоящий из более чем 20 миллионов поз гуманоидных роботов и соответствующих текстовых описаний движений. Набор данных был собран с использованием автоматизированного процесса, который включает в себя:

Сбор данных из Интернета: Извлечение видеоклипов, содержащих действия людей.
Генерация текстовых описаний: Использование моделей для создания текстовых аннотаций, описывающих действия, происходящие в видео.
Перенос движений: Применение методов ретаргетинга для переноса движений с 3D-моделей людей на гуманоидных роботов.
Обучение политик: Использование собранных данных для обучения политик управления, которые могут быть применены в реальных условиях.

UH-1: Модель для управления позами

На основе набора данных Humanoid-X была разработана модель UH-1, которая принимает текстовые команды в качестве входных данных и генерирует соответствующие действия для управления гуманоидным роботом. Модель использует архитектуру Transformer, что позволяет эффективно обрабатывать большие объемы данных.

Модель UH-1 может работать в двух режимах управления:

Текст в ключевые точки: Генерация высокоуровневых ключевых точек для управления гуманоидом в замкнутом контуре.
Текст в действия: Прямое создание действий для управления гуманоидом в открытом контуре.

Связанные работы

Обучение роботов на основе данных из Интернета

Многие исследования пытались использовать данные из Интернета для обучения роботов, включая извлечение визуальных признаков и представлений действий, таких как affordances и объектно-центрированные потоки. Однако большинство из этих работ фокусируются на манипуляциях с роботами, что делает их результаты не вполне применимыми для гуманоидных роботов, которые имеют другую кинематику.

Обучение гуманоидов

Существующие работы в области обучения гуманоидных роботов в основном касаются локомоции и манипуляций. Некоторые из них используют обучение с подкреплением, а другие — имитационное обучение. Однако эти подходы часто требуют хорошо откалиброванных данных, что ограничивает их обобщаемость.

В отличие от этих методов, исследование, представленное в данной статье, использует обширные видео для обучения универсальному управлению позами гуманоидных роботов, что значительно улучшает их обобщаемость.

Создание набора данных Humanoid-X

Обзор

Humanoid-X — это крупнейший набор данных для управления позами гуманоидных роботов, собранный из разнообразных видео. Он состоит из 163,800 образцов движений, охватывающих широкий спектр действий. Каждый образец включает в себя:

Видеоклип
Текстовое описание действия
Последовательности 3D-поз человека
Ключевые точки гуманоидного робота для высокоуровневого управления
Последовательности действий гуманоидного робота, представляющие целевые позиции DoF для низкоуровневого управления

Извлечение данных из видео

Процесс извлечения данных из видео включает в себя несколько ключевых этапов:

Сбор видео: Использование различных источников, таких как академические наборы данных и YouTube, для создания разнообразного контента.
Обработка видео: Применение методов обнаружения объектов для изоляции кадров с одним видимым человеком, что обеспечивает фокус на действиях одного человека.
Генерация текстовых аннотаций: Использование моделей captioning для создания текстовых описаний действий, происходящих в видео.
Оценка 3D-поз: Применение параметрических моделей для оценки 3D-поз человека из видеоклипов.
Ретаргетинг движений: Перенос движений с людей на гуманоидных роботов, что позволяет создавать ключевые точки для управления.

Модель UH-1 для универсального управления позами

Архитектура модели

Модель UH-1 использует архитектуру Transformer для обработки текстовых команд и генерации действий гуманоидного робота. Она включает в себя несколько ключевых компонентов:

Токенизация действий: Преобразование действий гуманоидного робота в дискретные токены, которые могут быть использованы для обучения.
Авто-регрессивное декодирование: Модель обучается предсказывать последовательности токенов на основе текстовых команд, что позволяет ей генерировать исполняемые действия.

Процесс обучения

Процесс обучения модели UH-1 включает в себя следующие этапы:

Токенизация: Преобразование последовательностей действий в токены, которые затем используются для обучения.
Обучение Transformer: Модель обучается на основе токенов действий и текстовых команд, минимизируя отрицательное логарифмическое правдоподобие для обеспечения точности предсказаний.
Генерация действий: На этапе инференса сгенерированные токены преобразуются в действия гуманоидного робота.

Эксперименты и результаты

Универсальное управление позами с помощью UH-1

Эксперименты показали, что модель UH-1 может успешно генерировать гуманоидные действия на основе текстовых команд. Сравнение с базовыми моделями, такими как Motion Diffusion Model и Text-to-Motion GPT, подтвердило, что UH-1 демонстрирует более высокую производительность по нескольким метрикам, включая качество и разнообразие сгенерированных движений.

Масштабируемое обучение с Humanoid-X

Обучение на большом наборе данных Humanoid-X значительно улучшает качество и надежность гуманоидных действий. Модели, обученные на Humanoid-X, показывают лучшие результаты по сравнению с моделями, обученными на меньших наборах данных, таких как HumanoidML3D.

Реальное развертывание UH-1

В ходе экспериментов с реальными гуманоидными роботами модель UH-1 продемонстрировала высокую степень надежности, достигая почти 100% успеха в выполнении языковых команд. Это подтверждает, что модель может успешно применяться в реальных сценариях управления гуманоидными роботами.

Заключение

Исследование, представленное в данной статье, открывает новые горизонты для обучения гуманоидных роботов с использованием обширных видеоданных. Создание набора данных Humanoid-X и разработка модели UH-1 представляют собой важные шаги к созданию более универсальных и адаптируемых гуманоидных роботов, способных выполнять сложные задачи на основе текстовых команд. Данная работа имеет потенциал для дальнейших исследований в области манипуляций гуманоидов и улучшения взаимодействия с людьми.

В будущем исследователи планируют расширить возможности модели UH-1, включая обучение гуманоидов манипуляциям и локомоции на основе данных из Интернета, что может привести к еще более значительным достижениям в области робототехники.

Статья на arxiv Оригинал pdf scalability learning reinforcement

Ай Дайджест