Как язык помогает обучению воплощенных агентов: исследование информативности и разнообразия

В современном мире искусственного интеллекта (ИИ) и машинного обучения (ML) одной из ключевых задач является создание воплощенных агентов, способных эффективно взаимодействовать с людьми и выполнять задачи в реальном мире. В этом контексте язык становится мощным инструментом для передачи знаний и инструкций агентам. В данной статье мы рассмотрим, как информативность и разнообразие языковых инструкций влияют на обучение агентов, использующих методы подкрепления (RL).

Воплощенные агенты, способные понимать и использовать язык для обучения и выполнения задач, представляют собой одну из наиболее амбициозных целей в области ИИ. Традиционные методы RL полагаются на численные сигналы вознаграждения для обучения агентов, но последние исследования показывают, что язык может служить интуитивно понятным и эффективным средством для формирования поведения агентов. Языковые инструкции могут значительно улучшить мгновенную производительность и общую эффективность обучения агентов, особенно когда они сталкиваются с ошибками или требуют адаптации к новым задачам.

Информативность и Разнообразие Языковых Инструкций

Информативность

Информативность языковых инструкций определяется их способностью передавать полезную информацию о прошлых действиях агента (ретроспективные инструкции) и о том, что ему следует делать в будущем (перспективные инструкции).

Ретроспективные инструкции (hindsight feedback) позволяют агенту анализировать свои прошлые действия. Например, фраза "Отлично, ты движешься к цели!" поощряет агента продолжать выбранный путь, в то время как "Ты слишком близко к врагу" предупреждает о возможной ошибке.
Перспективные инструкции (foresight feedback) направляют агента на будущие действия. Например, "Иди направо, чтобы приблизиться к цели" или "Иди налево, чтобы избежать врага справа" помогают агенту планировать свои следующие шаги.

Исследования показывают, что агенты, обученные с использованием обоих типов инструкций, демонстрируют лучшую производительность, чем те, которые получают только один из типов или не получают языковых инструкций вообще.

Разнообразие

Разнообразие языковых инструкций относится к разнообразию способов выражения одной и той же информации. Если агент обучается на одном и том же шаблоне инструкций, его способность к обобщению может быть ограничена. Введение разнообразия в языковые инструкции позволяет агенту лучше понимать и адаптироваться к различным формулировкам и контекстам.

Для увеличения разнообразия в исследовании использовались шаблоны, созданные с помощью LLM (Large Language Models) как GPT-4, которые позволяют генерировать более естественные и разнообразные выражения.

Эксперименты и Результаты

Настройка экспериментов

Эксперименты проводились в четырех различных средах: HomeGrid, ALFWorld, Messenger и MetaWorld. В каждой из этих сред агенты обучались с использованием различных комбинаций ретроспективных и перспективных инструкций, а также с различным уровнем разнообразия языка.

HomeGrid - мультизадачная среда, где агенты должны взаимодействовать с объектами и мусорными баками для выполнения различных задач.
ALFWorld - текстовая игра, симулирующая домашние задачи, где агенты должны следовать языковым инструкциям для навигации и взаимодействия с объектами.
Messenger - среда, где агент должен доставить сообщение от одного существа к другому, избегая врагов.
MetaWorld - среда для манипуляционных задач с использованием роботизированной руки.

Результаты

Агенты, обученные с использованием разнообразных и информативных языковых инструкций, продемонстрировали значительное улучшение в производительности и адаптации к новым задачам:

Агенты, получавшие как ретроспективные, так и перспективные инструкции, показали наилучшие результаты во всех средах.
Разнообразие языковых инструкций улучшило способность агентов к обобщению и адаптации к новым формулировкам задач.
В некоторых случаях, даже при отсутствии языковых инструкций, агенты, обученные с их использованием, показывали лучшие результаты благодаря лучшему пониманию задач.

Заключение

Исследование показало, что информативность и разнообразие языковых инструкций играют ключевую роль в обучении воплощенных агентов. Использование языка не только улучшает производительность агентов, но и позволяет им лучше адаптироваться к новым задачам и условиям. Это открывает новые горизонты для разработки интеллектуальных систем, способных эффективно взаимодействовать с людьми в естественных условиях, используя богатство и гибкость человеческого языка.

Статья на arxiv Оригинал pdf language agent learning

Ай Дайджест