Ай Дайджест - категория exploration

M AX I NFO RL: Усовершенствование Исследования в Обучении с Подкреплением через Максимизацию Информационного Прибыли

Алгоритмы обучения с подкреплением (RL) стремятся сбалансировать использование текущей наилучшей стратегии с изучением новых вариантов, которые могут привести к более высоким вознаграждениям. Наиболее распространенные алгоритмы RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективно сбалансировать задачи и внутренние вознаграждения сложно и часто зависит от конкретной задачи. В этой работе мы представляем рамки MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL нацеливает исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как информационный прирост о базовой задаче. В сочетании с исследованием Больцмана этот подход естественным образом уравновешивает максимизацию функции ценности с максимизацией энтропии по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает подпорогового сожаления в упрощенной обстановке многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без политики для непрерывных пространств состояния-действия, что приводит к новым алгоритмам, которые достигают превосходной производительности в сложных задачах исследования и сложных сценариях, таких как задачи визуального управления.

2024-12-17entropy regret bandits

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

2024-12-16prediction modeling consistency

S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

Академическая область обучения визуальной навигации, управляемой инструкциями, может быть в общем случае подразделена на навигацию, основанную на высокоуровневом поиске по категориям, и навигацию, основанную на языковых инструкциях низкого уровня, в зависимости от детализации языковых указаний, где первая акцентирует внимание на процессе исследования, в то время как вторая сосредотачивается на выполнении детализированных текстовых команд. Несмотря на различия в фокусе этих задач, основные требования к интерпретации инструкций, пониманию окружающей среды и выводу решений по действиям остаются неизменными. В данной статье мы объединяем различные задачи навигации в единую и общую структуру - мы исследуем основные трудности дележа общих знаний и использования специфических задачам возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основании языковых инструкций с различной детальностью и динамических наблюдений. С помощью SAME мы представляем универсального агента, способного одновременно решать семь задач навигации, который превосходит или достигает высоко сопоставимых результатов с узкоспециализированными агентами.

2024-12-13granularity exploration instruction

Путешествие в Мир Генеративного Исследования: Введение в Genex

Планирование с частичным наблюдением является ключевой проблемой в области воплощённого ИИ. Большинство предыдущих работ решали эту проблему, разрабатывая агентов, которые физически исследуют свою среду для обновления своих представлений о состоянии мира. В отличие от этого, люди могут представлять невидимые части мира через умственное исследование и пересматривать свои представления с помощью воображаемых наблюдений. Такие обновлённые представления позволяют им принимать более обоснованные решения, не требуя постоянного физического исследования мира. Чтобы достичь этой способности, характерной для человека, мы представляем Генеративного Исследователя Мира (Genex), фреймворк для исследования мира с эгоцентрической точки зрения, который позволяет агенту мысленно исследовать большой трёхмерный мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего представления. Это обновлённое представление затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаём синтетический набор данных городских сцен, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать высококачественные и согласованные наблюдения при длительном исследовании большого виртуального физического мира и (2) представления, обновлённые с помощью сгенерированных наблюдений, могут информировать существующую модель принятия решений (например, агента LLM) для составления лучших планов.

2024-11-19training exploration imagination

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

2024-11-06efficiency bandits alignment

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

2024-11-05divergence benchmark supervised

Исследование неизведанного: Интерфейс на основе чата для персонализированных исследовательских задач

Восход популярности больших языковых моделей (LLM) произвел революцию во взаимодействии пользователей с системами, основанными на знаниях, позволяя чат-ботам синтезировать огромные объемы информации и помогать в выполнении сложных, исследовательских задач. Однако чат-боты на базе LLM часто сталкиваются с трудностями при предоставлении персонализированной поддержки, особенно когда пользователи начинают с неопределенных запросов или не имеют достаточной контекстной информации. В данной статье представляется Коллаборативный Ассистент для Персонализированного Исследования (CARE), система, разработанная для улучшения персонализации в исследовательских задачах путем объединения мультиагентной LLM структуры с организованным пользовательским интерфейсом. Интерфейс CARE включает в себя Панель Чата, Панель Решений и Панель Потребностей, что позволяет итеративно уточнять запросы и динамически генерировать решения. Мультиагентная структура работает совместно для выявления как явных, так и неявных потребностей пользователя, предлагая персонализированные, исполнимые решения. В ходе исследования с участием 22 человек, в котором сравнивались субъекты, CARE постоянно предпочитался базовому чат-боту на основе LLM, с пользователями, хвалившими его способность уменьшать когнитивную нагрузку, вдохновлять на креативность и предоставлять более адаптированные решения. Наши выводы подчеркивают потенциал CARE для преобразования систем на базе LLM из пассивных ретриверов информации в активных партнеров в персонализированном решении проблем и исследовании.

2024-11-01personalization interface exploration