Свежая выжимка ml и AI статей - каждый день
В мире, где взаимодействие между людьми и роботами становится все более интенсивным, возникает необходимость в создании универсальных моделей, способных понимать и предсказывать действия как людей, так и роботов. Проект IGOR (Image-GOal Representations) представляет собой революционный подход к обучению фундаментальных моделей для воплощенного искусственного интеллекта (AI), предлагая новый способ объединения данных о действиях человека и робота в единое латентное пространство действий.
Современные модели фундаментального ИИ для воплощенного AI сталкиваются с проблемой нехватки данных взаимодействия. В отличие от текстовых или видео данных, которые доступны в больших объемах, данные о взаимодействиях, особенно в контексте робототехники, значительно ограничены. IGOR предлагает решение этой проблемы, создавая унифицированное латентное пространство действий, которое позволяет переносить знания между крупномасштабными данными о деятельности людей и роботов.
IGOR работает, сжимая визуальные изменения между начальным изображением и его целевым состоянием в латентные действия. Эти латентные действия являются ключевыми для создания унифицированного пространства, где действия человека и робота могут быть представлены и интерпретированы одинаково. Это позволяет:
Обучать модели на интернет-видео данных: IGOR может генерировать метки латентных действий для видео данных в интернете, что значительно расширяет доступные для обучения данные.
Передавать знания между людьми и роботами: Унифицированное латентное пространство действий позволяет обучать модели, которые могут обобщать знания о действиях, выполненных как людьми, так и роботами.
Создавать фундаментальные политики и модели мира: С помощью IGOR можно обучать модели, которые могут управлять различными задачами, выполняемыми как людьми, так и роботами.
Латентная модель действий (LAM) в IGOR состоит из двух основных компонентов:
Обратная динамическая модель (IDM): Эта модель предсказывает латентное действие на основе последовательности наблюдений, используя Vision Transformer (ViT) для извлечения признаков из каждого кадра и Spatio-Temporal Transformer (ST-Transformer) для обработки временных зависимостей.
Прямая динамическая модель (FDM): Использует одиночный кадр для восстановления следующего состояния, что помогает модели учиться более информативным латентным действиям, а не просто предсказывать следующее состояние из контекста.
Фундаментальная модель мира в IGOR использует Rectified Flow для генерации будущих кадров, основываясь на истории наблюдений и будущих латентных действиях. Это позволяет модели учитывать как визуальные изменения, так и физические взаимодействия в реальном времени.
IGOR обучает фундаментальную политику на крупномасштабных данных, используя текстовые метки для описания задач и принимает решения, генерируя следующее латентное действие. Низкоуровневая политика затем выполняет эти действия в реальном мире, используя конкретные робототехнические действия.
Визуализация пар изображений-целей с похожими латентными действиями: IGOR показывает, что пары изображений с похожими латентными действиями имеют схожие визуальные изменения, даже на невиданных ранее данных.
Управление объектами: Модель демонстрирует способность управлять движением объектов на изображениях, что подтверждает её понимание физических взаимодействий.
Генерация контрфактических видео: IGOR может генерировать видео, следуя различным инструкциям, что свидетельствует о её способности следовать языковым командам.
Оценка на задачах Google Robot: IGOR показал улучшение в выполнении задач по сравнению с обучением с нуля, что подтверждает его способность к обобщению.
Предсказуемость латентных действий: Было показано, что латентные действия, выученные IGOR, предсказывают реальные действия робота с высокой точностью.
IGOR представляет собой значительный шаг вперед в области воплощенного ИИ, предлагая универсальный подход к обучению моделей, способных понимать и предсказывать действия в широком спектре задач, выполняемых как людьми, так и роботами. Это открывает новые возможности для передачи знаний между человеком и роботом, улучшая взаимодействие и контроль в реальном мире.