Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "tasks"

TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях

Мы взаимодействуем с компьютерами на ежедневной основе, будь то в повседневной жизни или на работе, и многие аспекты работы можно выполнять полностью с помощью доступа к компьютеру и интернету. В то же время, благодаря улучшениям в области больших языковых моделей (LLM) также произошло быстрое развитие агентов ИИ, которые взаимодействуют с окружающей средой и вносят изменения в нее. Но насколько эффективно ИИ-агенты помогают ускорять или даже автономно выполнять рабочие задачи? Ответ на этот вопрос имеет важные последствия как для промышленных компаний, стремящихся интегрировать ИИ в свои рабочие процессы, так и для экономической политики, чтобы понять, как внедрение ИИ может повлиять на рынок труда. Для оценки прогресса этих LLM-агентов в выполнении реальных профессиональных задач в данной работе мы представляем TheAgentCompany, настраиваемый бенчмарк для оценки ИИ-агентов, которые взаимодействуют с окружающим миром аналогично цифровым работникам: просматривая веб, пишущая код, запускающие программы и общающиеся с другими коллегами. Мы создаем замкнутую среду с внутренними веб-сайтами и данными, напоминающую среду небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками такой компании. Мы тестируем базовых агентов, использующих как закрытые, так и открытые языковые модели (LM), и выясняем, что с помощью самого конкурентоспособного агента 24% задач могут быть выполнены автономно. Это рисует нюансированную картину автоматизации задач с помощью LM-агентов: в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи на длительный срок все еще выходят за рамки возможностей текущих систем.

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

X-Prompt: К универсальной генерации изображений в контексте

Генерация в контексте является ключевым компонентом способности больших языковых моделей (LLM) к обобщению в открытых задачах. Используя несколько примеров в качестве контекста, LLM могут выполнять задачи как в своей области, так и за ее пределами. Недавние достижения в области авто-регрессионных моделей, сочетающих язык и визуальные данные (VLM), основанных на LLM, продемонстрировали впечатляющую эффективность в генерации текста в изображения. Однако потенциал обучения в контексте для генерации изображений в целом остается в значительной степени неосвещенным. Чтобы решить эту проблему, мы представляем X-Prompt — чисто авто-регрессионную крупную языковую модель для обработки визуальных данных, разработанную для обеспечения конкурентоспособной производительности в широком диапазоне задач генерации изображений как видимых, так и невидимых, в рамках единой структуры обучения в контексте. X-Prompt включает в себя специализированный дизайн, который эффективно сжимает ценные признаки из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая свою способность обобщать на незнакомые задачи. Единая задача обучения как для текстового, так и для визуального предсказания позволяет X-Prompt справляться с генерацией изображений в общем с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты проверяют производительность модели по разнообразным задачам генерации видимых изображений и ее способность обобщать на ранее невидимые задачи.

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

Оценка потенциала ИИ в научных исследованиях: Бенчмарк AAAR-1.0

Многочисленные исследования оценивали эффективность систем ИИ, особенно крупных языковых моделей (LLM), в выполнении повседневных задач, таких как написание электронных писем, ответы на вопросы и создание креативного контента. Однако исследователи сталкиваются с уникальными вызовами и возможностями при использовании LLM для своей работы, например, для мозгового штурма исследовательских идей, проектирования экспериментов и написания или рецензирования научных статей. В данном исследовании мы представляем AAAR-1.0, набор данных для оценки, разработанный для оценки производительности LLM в трех основных, требующих высокой квалификации, исследовательских задачах: (i) EquationInference — оценка корректности уравнений на основе контекстной информации в представленных статьях; (ii) ExperimentDesign — проектирование экспериментов для проверки исследовательских идей и решений; (iii) PaperWeakness — выявление слабых мест в представленных статьях; и (iv) REVIEWCRITIQUE — определение, какие сегменты в рецензиях людей недостаточны или нет. AAAR-1.0 отличается от предыдущих эталонных тестов двумя ключевыми способами: во-первых, он ориентирован на исследования, с задачами, требующими глубоких знаний в области; во-вторых, он ориентирован на исследователей, отражая основные виды деятельности, которыми исследователи занимаются ежедневно. Оценка как открытых, так и проприетарных LLM выявляет их потенциал, а также ограничения в проведении сложных исследовательских задач. Мы будем продолжать итерацию AAAR-1.0 до новых версий.