Ай Дайджест - категория autonomy

Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.

2024-12-18skills evaluation reinforcement

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

2024-12-03evaluation simulation rendering

Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Стремление к автоматизации операций сотовых сетей выросло с увеличением сложности этих систем. Несмотря на достижения, полная автономность пока недостижима из-за необходимости человеческого вмешательства для моделирования поведения сети и определения политик для выполнения целевых требований. Цифровые двойники сети (NDTs) показали перспективность в улучшении интеллекта сетей, но успешная реализация этой технологии ограничена архитектурами, специфичными для конкретных случаев использования, что ограничивает ее роль в развитии автономности сети. Необходим более способный сетевой интеллект или "мозг телекоммуникаций", чтобы обеспечить бесшовное, автономное управление сотовой сетью. Большие языковые модели (LLMs) появились как потенциальные инструменты для реализации этой концепции, но сталкиваются с проблемами в моделировании сети, особенно в области логического мышления и обработки разнообразных типов данных. Чтобы преодолеть эти пробелы, мы представляем Hermes — цепочку агентов LLM, которая использует "чертежи" для создания экземпляров NDT через структурированные и объяснимые логические шаги. Hermes позволяет автоматическое, надежное и точное моделирование сети для различных сценариев использования и конфигураций, что знаменует прогресс на пути к полностью автономным операциям сети.

2024-11-15agents automation autonomy