Ай Дайджест - категория adaptability

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

2024-12-02generalization adaptability modeling

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

2024-11-25adaptability llms feedback

GitChameleon: Разоблачение возможностей генерации версионного кода LLM

Быстрое развитие библиотек программного обеспечения представляет собой значительный вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки для автодополнения кода часто упускают из виду этот динамический аспект, а те, которые его учитывают, опираются на статические задачи предсказания кода без оценки на основе выполнения, предоставляя ограниченный взгляд на практическую применимость модели. Чтобы заполнить этот пробел, мы представляем **GitChameleon**, новый, вручную отобранный набор данных, состоящий из 116 задач автодополнения кода на Python, каждая из которых обусловлена конкретными версиями библиотек и сопровождается исполняемыми юнит-тестами. **GitChameleon** предназначен для тщательной оценки способности современных больших языковых моделей (LLM) генерировать код, специфичный для версии, который не только синтаксически правильный, но и функционально точен при выполнении. Наши комплексные оценки показывают, что передовые LLM сталкиваются с трудностями в решении этой задачи; например, GPT-4o достигает pass@10 всего 39.9% (43.7%, когда предоставляется обратная связь об ошибках), что подчеркивает сложность проблемы и ограничения текущих моделей. Предоставляя бенчмарк на основе выполнения, который подчеркивает динамическую природу библиотек кода, **GitChameleon** служит важным инструментом для продвижения разработки более адаптируемых и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, обусловленной версиями, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.

2024-11-12compatibility dataset benchmark