TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях
Мы взаимодействуем с компьютерами на ежедневной основе, будь то в повседневной жизни или на работе, и многие аспекты работы можно выполнять полностью с помощью доступа к компьютеру и интернету. В то же время, благодаря улучшениям в области больших языковых моделей (LLM) также произошло быстрое развитие агентов ИИ, которые взаимодействуют с окружающей средой и вносят изменения в нее. Но насколько эффективно ИИ-агенты помогают ускорять или даже автономно выполнять рабочие задачи? Ответ на этот вопрос имеет важные последствия как для промышленных компаний, стремящихся интегрировать ИИ в свои рабочие процессы, так и для экономической политики, чтобы понять, как внедрение ИИ может повлиять на рынок труда. Для оценки прогресса этих LLM-агентов в выполнении реальных профессиональных задач в данной работе мы представляем TheAgentCompany, настраиваемый бенчмарк для оценки ИИ-агентов, которые взаимодействуют с окружающим миром аналогично цифровым работникам: просматривая веб, пишущая код, запускающие программы и общающиеся с другими коллегами. Мы создаем замкнутую среду с внутренними веб-сайтами и данными, напоминающую среду небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками такой компании. Мы тестируем базовых агентов, использующих как закрытые, так и открытые языковые модели (LM), и выясняем, что с помощью самого конкурентоспособного агента 24% задач могут быть выполнены автономно. Это рисует нюансированную картину автоматизации задач с помощью LM-агентов: в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи на длительный срок все еще выходят за рамки возможностей текущих систем.