Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "ai"

TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях

Мы взаимодействуем с компьютерами на ежедневной основе, будь то в повседневной жизни или на работе, и многие аспекты работы можно выполнять полностью с помощью доступа к компьютеру и интернету. В то же время, благодаря улучшениям в области больших языковых моделей (LLM) также произошло быстрое развитие агентов ИИ, которые взаимодействуют с окружающей средой и вносят изменения в нее. Но насколько эффективно ИИ-агенты помогают ускорять или даже автономно выполнять рабочие задачи? Ответ на этот вопрос имеет важные последствия как для промышленных компаний, стремящихся интегрировать ИИ в свои рабочие процессы, так и для экономической политики, чтобы понять, как внедрение ИИ может повлиять на рынок труда. Для оценки прогресса этих LLM-агентов в выполнении реальных профессиональных задач в данной работе мы представляем TheAgentCompany, настраиваемый бенчмарк для оценки ИИ-агентов, которые взаимодействуют с окружающим миром аналогично цифровым работникам: просматривая веб, пишущая код, запускающие программы и общающиеся с другими коллегами. Мы создаем замкнутую среду с внутренними веб-сайтами и данными, напоминающую среду небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками такой компании. Мы тестируем базовых агентов, использующих как закрытые, так и открытые языковые модели (LM), и выясняем, что с помощью самого конкурентоспособного агента 24% задач могут быть выполнены автономно. Это рисует нюансированную картину автоматизации задач с помощью LM-агентов: в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи на длительный срок все еще выходят за рамки возможностей текущих систем.

MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

Недавние методы видеомонтажа на основе ИИ позволили пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние методы видеомонтажа без предварительной тренировки в основном сосредоточены на глобальных изменениях или редактировании одного объекта, что может привести к нежелательным изменениям в других частях видео. Когда несколько объектов требуют локализованных изменений, существующие методы сталкиваются с такими проблемами, как неточное редактирование, утечка редактирования и нехватка подходящих датасетов и метрик для оценки. Чтобы преодолеть эти ограничения, мы предлагаем нулевую многокомпонентную видеомонтажную структуру, названную MIVE. MIVE — это универсальная маско-ориентированная структура, не предназначенная для конкретных объектов (например, людей). MIVE вводит два ключевых модуля: (i) Разделенное многокомпонентное выборка (DMS), чтобы предотвратить утечку редактирования, и (ii) Вероятностное перераспределение на основе объектов (IPR), чтобы обеспечить точную локализацию и достоверное редактирование. Кроме того, мы представляем наш новый датасет MIVE с разнообразными видеосценариями и вводим Оценку точности между экземплярами (CIA) для оценки утечки редактирования в задачах многокомпонентного видеомонтажа. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит современные передовые методы по верности редактирования, точности и предотвращению утечек, устанавливая новый стандарт для многокомпонентного видеомонтажа. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/.

Большие Модели Действий: От Концепции к Реализации

По мере того как ИИ продолжает развиваться, возрастает потребность в системах, которые выходят за рамки языковой помощи и переходят к интеллектуальным агентам, способным выполнять действия в реальном мире. Эта эволюция требует перехода от традиционных больших языковых моделей (LLM), которые отлично справляются с генерацией текстовых ответов, к большим моделям действий (LAM), разработанным для генерации и выполнения действий в динамических средах. Обеспеченные агентными системами, LAM имеют потенциал преобразовать ИИ из пассивного языкового понимания в активное выполнение задач, что отмечает значимый этап в прогрессе к искусственному общему интеллекту. В этой статье мы представляем обширную структуру для разработки LAM, предлагая систематический подход к их созданию, от замысла до развертывания. Мы начинаем с обзора LAM, подчеркивая их уникальные характеристики и обозначая их отличия от LLM. Используя основанного на операционной системе Windows агента в качестве примера, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию среды, основание и оценку. Этот обобщаемый рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем, определяя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного развертывания, подчеркивая вызовы и возможности, которые ждут впереди в реализации полного потенциала LAM в реальных приложениях. Код для процесса сбора данных, использованный в этой статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, а обширная документация доступна по адресу https://microsoft.github.io/UFO/dataflow/overview/.

InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Создание систем ИИ, которые могут взаимодействовать с окружающей средой в течение длительного времени, аналогично человеческому познанию, было давней исследовательской целью. Недавние достижения в области многомодальных больших языковых моделей (MLLM) сделали значительные успехи в понимании открытого мира. Однако задача непрерывного и одновременного восприятия, хранения памяти и рассуждений остается в значительной степени неисследованной. Текущие MLLM ограничены своей архитектурой «последовательность в последовательность», что ограничивает их способность обрабатывать вводимые данные и генерировать ответы одновременно, подобно неспособности мыслить во время восприятия. Более того, полагаться на долгие контексты для хранения исторических данных непрактично для долгосрочных взаимодействий, поскольку удержание всей информации становится дорогостоящим и неэффективным. Поэтому вместо того, чтобы полагаться на единую базовую модель для выполнения всех функций, этот проект черпает вдохновение из концепции специализированного универсального ИИ и вводит механизмы раздельного потокового восприятия, рассуждений и памяти, позволяя взаимодействовать в реальном времени с потоковым видео и аудио вводом. Предлагаемая структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль потокового восприятия: обрабатывает многомодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователей. (2) Модуль многомодальной долгосрочной памяти: интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности. (3) Модуль рассуждений: отвечает на запросы и выполняет задачи рассуждения, координируя работу с модулями восприятия и памяти. Этот проект имитирует человеческое подобное познание, позволяя многомодальным большим языковым моделям предоставлять непрерывные и адаптивные услуги с течением времени.

JuStRank: Оценка LLM-судей для ранжирования систем

Учитывая быстрый прогресс генеративного ИИ, существует настоятельная необходимость систематически сравнивать и выбирать между многочисленными моделями и конфигурациями. Масштаб и универсальность таких оценок делают использование судей на основе больших языковых моделей (LLM) убедительным решением для этой задачи. Ключевым моментом в этом подходе является необходимость сначала проверить качество самого судьи LLM. Предыдущие работы сосредотачивались на оценке судей LLM на основе конкретных примеров, где судья оценивается по набору ответов или парам ответов, оставаясь при этом нейтральным к их исходным системам. Мы утверждаем, что эта обстановка упускает из виду критически важные факторы, влияющие на ранжирование на уровне системы, такие как положительная или отрицательная предвзятость судьи к определённым системам. Чтобы устранить этот пробел, мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Баллы системы генерируются путем агрегирования оценок судей по нескольким выводам системы, а качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием, основанным на мнении человека. Кроме общей оценки судьи, наш анализ предоставляет детализированную характеристику поведения судьи, включая их решительность и предвзятость.

judgesllmai

Контекстуализированная контрречь: стратегии адаптации, персонализации и оценки

Сгенерированная ИИ контрречь предлагает многообещающую и масштабируемую стратегию для сокращения онлайн-токсичности через прямые ответы, которые способствуют гражданскому дискурсу. Однако текущая контрречь является универсальной, не адаптированной к контексту модерации и вовлеченным пользователям. Мы предлагаем и оцениваем несколько стратегий генерации адаптированной контрречи, которая подстраивается под контекст модерации и персонализируется для пользователя, подвергающегося модерации. Мы обучаем модель LLaMA2-13B генерировать контрречь, экспериментируя с различными конфигурациями на основе различной контекстуальной информации и стратегий дообучения. Мы определяем конфигурации, которые генерируют убедительную контрречь с помощью комбинации количественных показателей и человеческих оценок, собранных в ходе заранее зарегистрированного эксперимента по краудсорсингу смешанного дизайна. Результаты показывают, что контекстуализированная контрречь может значительно превосходить самые современные универсальные контрречи по адекватности и убеждающей силе, не ухудшая другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и человеческими оценками, что предлагает, что эти методы оценивают разные аспекты и подчеркивает необходимость более тонких методологий оценки. Эффективность контекстуализированной сгенерированной ИИ контрречи и расхождение между человеческими и алгоритмическими оценками подчеркивают важность увеличенного сотрудничества человека и ИИ в модерации контента.

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

Генерация рабочих процессов с помощью декомпозиции задач и RAG: Путь к низкокодовым решениям

Технологии ИИ быстро переходят от исследований к производству. С ростом популярности Фундаментальных Моделей (FM), которые генерируют текст, изображения и видео, сложность систем на основе ИИ возрастает. По сравнению с традиционным программным обеспечением на основе ИИ, системы, использующие FM или системы на основе генеративного ИИ (GenAI), более сложны в проектировании из-за их масштаба и универсальности. Это делает необходимым документирование лучших практик, известных как проектные шаблоны в программной инженерии, которые могут быть использованы в различных приложениях GenAI. Нашим первым вкладом является формализация двух техник, Разложение задач и Генерация с дополнением данных (RAG), как проектных шаблонов для систем на основе GenAI. Мы обсуждаем их компромиссы в контексте атрибутов качества программного обеспечения и комментируем альтернативные подходы. Мы рекомендуем практикам ИИ рассматривать эти техники не только с научной точки зрения, но и с точки зрения желаемых инженерных свойств, таких как гибкость, поддерживаемость, безопасность и защита. В качестве второго вклада мы описываем наш опыт работы в отрасли, применяя Разложение задач и RAG для создания сложного реального приложения GenAI для корпоративных пользователей: Генерация рабочих процессов. Задача генерации рабочих процессов включает в себя создание конкретного плана с использованием данных из системной среды, принимая в качестве входного параметра требования пользователя. Поскольку эти два шаблона влияют на весь цикл разработки ИИ, мы объясняем, как они повлияли на создание датасета, обучение модели, оценку модели и этапы развертывания.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

Построение доверия: основы безопасности, безопасности и прозрачности в ИИ

В данной статье рассматривается быстро развивающаяся экосистема публично доступных моделей искусственного интеллекта и их потенциальное влияние на ландшафт безопасности и безопасности. По мере того как модели ИИ становятся всё более распространёнными, понимание их потенциальных рисков и уязвимостей становится критически важным. Мы анализируем текущие сценарии безопасности и безопасности, выделяя такие проблемы, как отслеживание проблем, исправление, и очевидное отсутствие процессов жизненного цикла и владения моделями ИИ. Предлагаются комплексные стратегии для повышения безопасности и безопасности как для разработчиков моделей, так и для конечных пользователей. Цель этой статьи - предоставить некоторые основополагающие элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей ИИ, а также в формировании более широких открытых экосистем и сообществ вокруг них.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.