Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "manipulation"

TidyBot++: Открытый мобильный манипулятор для обучения роботов

Использование обещаний недавних достижений в области имитационного обучения для мобильной манипуляции потребует сбора большого количества демонстраций, проведенных людьми. В данной статье предлагается открытый дизайн недорогого, надежного и гибкого мобильного манипулятора, который может поддерживать произвольные руки, что позволяет выполнять широкий спектр задач мобильной манипуляции в реальных условиях дома. Ключевым моментом нашего дизайна является использование электродвигателей на колесах, которые позволяют мобильной базе быть полностью гономной, управляя всеми плоскими степенями свободы независимо и одновременно. Эта функция делает базу более маневренной и упрощает многие задачи мобильной манипуляции, устраняя кинематические ограничения, которые создают сложные и трудоемкие движения в негонимических базах. Мы оснастили нашего робота интуитивно понятным интерфейсом телеприсутствия с помощью мобильного телефона, чтобы упростить сбор данных для имитационного обучения. В наших экспериментах мы используем этот интерфейс для сбора данных и показываем, что полученные обученные политики могут успешно выполнять различные распространенные задачи мобильной манипуляции в домах.

RLDG: Дистилляция Политик Генералистов с Помощью Обучения с Подкреплением

Недавние достижения в области робототехнических базовых моделей позволили разработать универсальные политики, которые могут адаптироваться к различным задачам. Хотя эти модели демонстрируют впечатляющую гибкость, их эффективность сильно зависит от качества их обучающих данных. В этой работе мы предлагаем метод Обобщенных Политик, Дистиллированных с Помощью Обучения с Подкреплением (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для дообучения универсальных политик. Через обширные эксперименты в реальном мире, сосредоточенные на точных манипуляциях, таких как вставка разъемов и сборка, мы показываем, что универсальные политики, обученные на данных, сгенерированных с помощью RL, последовательно превосходят те, которые обучались на демонстрациях человека, достигая до 40% более высоких коэффициентов успеха, при этом лучше обобщаясь на новые задачи. Мы также предоставляем подробный анализ, который показывает, что это улучшение связано как с оптимизированными распределениями действий, так и с улучшенным охватом состояний. Наши результаты предполагают, что сочетание специфического для задач обучения с подкреплением с дистилляцией универсальных политик представляет собой многообещающий подход для разработки более способных и эффективных систем роботизированной манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем проектном сайте https://generalist-distillation.github.io

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

Хотя крупные модели языка-видения-действия (VLA), предварительно обученные на обширных наборах данных роботов, предлагают многообещающие универсальные стратегии для обучения роботов, они всё ещё испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в выполнении сложных задач, таких как манипуляция. В данной работе мы представляем визуальное отслеживание подсказок, простой но эффективный подход для содействия пространственно-временной осведомленности моделей VLA при предсказании действий путём визуального кодирования траекторий состояния-действия. Мы разработали новую модель TraceVLA, дообучив OpenVLA на собственно собранном наборе данных из 150 000 траекторий манипуляции роботов с использованием визуального отслеживания подсказок. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовые характеристики, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза на задачах с реальными роботами, а также показывая надёжную генерализацию на различных воплощениях и сценариях. Для дальнейшей проверки эффективности и универсальности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предварительно обученную на Open-X-Embodiment и дообученную на нашем наборе данных, которая соперничает с базовой моделью 7B OpenVLA, значительно улучшая эффективность вывода.

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."

Динамическая манипуляция в руке мягким роботом: SWIFT

Динамическая манипуляция в руке остается сложной задачей для мягких робототехнических систем, которые показали преимущества в безопасных и податливых взаимодействиях, но испытывают трудности с высокоскоростными динамическими задачами. В данной работе мы представляем SWIFT, систему для обучения динамическим задачам с использованием мягкой и податливой роботизированной руки. В отличие от предыдущих работ, которые полагались на симуляцию, квазистатические действия и точные модели объектов, предлагаемая система учится вращать ручку методом проб и ошибок, используя только реальные данные без необходимости явного знания физических характеристик ручки. С помощью самопомеченных испытаний, отобранных из реального мира, система определяет набор параметров захвата и вращения ручки, которые позволяют мягкой руке вращать ручку надежно и эффективно. После 130 отобранных действий на объект, SWIFT достигает 100% успеха для трех ручек с разным весом и распределением веса, демонстрируя способность системы к обобщению и устойчивость к изменениям свойств объекта. Результаты подчеркивают потенциал мягких робототехнических эффекторов для выполнения динамических задач, включая быструю манипуляцию в руке. Мы также демонстрируем, что SWIFT может обобщать на вращение предметов различной формы и веса, таких как кисть и отвертка, с успехом в 10/10 и 5/10 соответственно. Видео, данные и код доступны по адресу https://soft-spin.github.io.

AnimateAnything: Создание Консистентных и Контролируемых Анимаций для Генерации Видео

Мы представляем унифицированный подход к управляемой генерации видео под названием **AnimateAnything**, который облегчает точное и последовательное манипулирование видео в различных условиях, включая траектории камеры, текстовые запросы и аннотации движений пользователя. В частности, мы тщательно разрабатываем сеть слияния многомасштабных контрольных характеристик для построения общего представления движения для различных условий. Она явно преобразует всю контрольную информацию в кадр за кадром оптические потоки. Затем мы включаем оптические потоки как априорные знания о движении для руководства финальной генерацией видео. Кроме того, чтобы уменьшить мерцание, вызванное крупномасштабными движениями, мы предлагаем модуль стабилизации на основе частот. Он может улучшить временную когерентность, обеспечивая согласованность частотной области видео. Эксперименты показывают, что наш метод превосходит современные подходы. Для получения дополнительной информации и видео, пожалуйста, обратитесь к веб-странице: https://yu-shaonian.github.io/Animate_Anything/.

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

DynaMem: Инновационный подход к динамической навигации и манипуляции роботов

Значительный прогресс достигнут в области мобильной манипуляции с открытым словарём, где цель заключается в том, чтобы робот выполнял задачи в любой среде, основываясь на описании на естественном языке. Однако большинство современных систем предполагают статическую среду, что ограничивает их применимость в реальных сценариях, где окружение часто меняется из-за вмешательства человека или действий самого робота. В данной работе мы представляем DynaMem, новый подход к мобильной манипуляции в открытом мире, который использует динамическую пространственно-семантическую память для представления окружения робота. DynaMem создает трехмерную структуру данных для поддержания динамической памяти облаков точек и отвечает на запросы по локализации объектов с открытым словарём с помощью мультимодальных языковых моделей (LLMs) или открытых словарных признаков, генерируемых передовыми моделями видео-языкового взаимодействия. Благодаря DynaMem, наши роботы могут исследовать новые среды, искать объекты, отсутствующие в памяти, и непрерывно обновлять память по мере того, как объекты перемещаются, появляются или исчезают в сцене. Мы провели обширные эксперименты на роботах Stretch SE3 в трех реальных и девяти оффлайн сценах и достигли среднего уровня успеха в подъеме и укладке объектов, не находящихся на месте, в 70%, что более чем в два раза превышает результаты лучших статических систем. Наш код, а также видео экспериментов и развертывания открыты для общественного доступа и могут быть найдены на сайте проекта: https://dynamem.github.io/