Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLM) продемонстрировали впечатляющие возможности в различных приложениях, включая синтез кода и обслуживание клиентов. Однако их ограниченные знания в специфических областях часто приводят к созданию неверной или вводящей в заблуждение информации, что может вызвать значительные риски и финансовые потери. Например, недавно канадская авиакомпания была вынуждена компенсировать клиенту, который получил неправильные указания от чат-бота авиакомпании. Эти проблемы подчеркивают необходимость создания надежных реальных бенчмарков, которые оценивали бы, насколько точно и верно LLM могут следовать реальным инструкциям и соблюдать соответствующие правила.
В этом контексте мы представляем R,ULE,A,RENA — новый и сложный бенчмарк, предназначенный для оценки способности LLM следовать сложным правилам в реальных сценариях. Он охватывает три практические области: сборы за багаж авиакомпаний, транзакции в НБА и налоговые регуляции. R,ULE,A,RENA оценивает мастерство LLM в обработке сложных инструкций на естественном языке, которые требуют понимания длительного контекста, логического вывода и точных математических вычислений.
R,ULE,A,RENA включает 95 распространенных и умеренно сложных правил и 816 тестовых задач из трех представительных реальных сценариев:
Для каждой области мы собрали подлинные правила, которые в настоящее время применяются компаниями или государственными органами. Мы создаем набор сложных тестовых задач, сопоставляя каждый вопрос с истинным решением, а затем оцениваем ряд современных LLM на их способность соответствовать правилам.
В отличие от традиционных бенчмарков, основанных на правилах, R,ULE,A,RENA обладает двумя ключевыми атрибутами:
Наши исследования выявили несколько значительных ограничений в LLM:
Существуют различные бенчмарки, созданные для оценки способности LLM следовать инструкциям, однако многие из них сосредоточены на стилистических ограничениях, таких как ожидаемый формат или длина ответов. В отличие от этого, R,ULE,A,RENA фокусируется на сложных инструкциях, которые происходят непосредственно из реальной жизни, где сложные логические структуры возникают из многофакторных ограничений.
Некоторые работы вводили бенчмарки, которые строят сложные инструкции через композиционные методы. Например, WizardLM генерирует сложные задачи, комбинируя более простые инструкции. В отличие от этого, наша работа фокусируется на инструкциях, которые происходят непосредственно из реальных сценариев, где сложности возникают из многообразных ограничений.
Существующие исследования оценивали способности LLM решать математические и логические задачи, однако, как правило, они основывались на упрощенных формальных системах. В отличие от этого, наш бенчмарк работает с правилами, которые возникают в естественном языке, захватывая более богатый и реалистичный набор ограничений.
В этом разделе мы представим бенчмарк R,ULE,A,RENA и процесс его создания. Мы начнем с описания выбранных доменов и соответствующих регуляций, из которых были собраны наши правила. Затем мы расскажем, как генерируются задачи с различными уровнями сложности и как вычисляются истинные решения. Наконец, мы представим метрики оценки, которые мы использовали для оценки правильного применения правил.
Мы выбрали три реальных домена, которые знакомы в повседневной жизни и демонстрируют высокий уровень сложности:
Авиаперевозки: LLM должна вычислить общую стоимость для одного или нескольких пассажиров, включая стоимость билета и сборы за зарегистрированный багаж. Сложность возникает из-за того, что стоимость багажа варьируется в зависимости от различных факторов, таких как класс обслуживания, место отправления и назначения, количество зарегистрированных сумок и размер каждой сумки.
Транзакции в НБА: LLM должна определить, разрешены ли конкретные транзакции. Сложность возникает из-за множества факторов, влияющих на допустимость транзакций, включая стоимость контракта игрока и ограничения по зарплате.
Налоговые регуляции: LLM должна вычислить подоходный налог для одного человека или семьи, основываясь на их финансовой информации. Сложность возникает из-за множества факторов, включая доходы, инвестиционные прибыли, подарки и права собственности на жилье.
После сбора соответствующих правил для каждого домена мы создаем сложные тестовые задачи, предназначенные для оценки способности LLM к производству правильных выходных данных на основе предоставленных правил. В каждой задаче мы оцениваем, может ли LLM правильно использовать правила, чтобы решить поставленную задачу.
Для достижения комплексной оценки способностей LLM следовать правилам, мы вводим набор оценочных метрик. В отличие от существующих бенчмарков, которые в основном полагаются на простые метрики, такие как точность ответов, наш подход направлен на более детальный анализ процесса логического вывода, включая проверку правильности применения правил.
В этом разделе мы представим эксперименты, проведенные на бенчмарке R,ULE,A,RENA. Мы сначала представим LLM и стратегии подсказок, которые мы используем для оценки, а затем представим результаты оценки.
Мы рассматриваем LLM, которые могут обрабатывать длинные контексты, включая Llama-3.1, Claude-3.5 Sonnet и GPT-4o. Мы используем стратегию Chain-of-Thought (CoT) для многократного логического вывода.
Наши эксперименты показывают, что существующие LLM, такие как GPT-4o и Claude-3.5 Sonnet, в основном не справляются с задачами сложного логического вывода. Модели испытывают трудности с интеграцией нескольких правил или фактов и подвержены отвлечению от нерелевантной информации.
В этой статье мы представили R,ULE,A,RENA, реальный бенчмарк, предназначенный для оценки способностей LLM в различных задачах, связанных с логическим выводом. Мы наблюдаем, что существующие LLM сталкиваются с серьезными проблемами при решении задач на R,ULE,A,RENA, даже самые сильные модели, такие как Claude-3.5 и GPT-4o, едва ли могут справиться с нашими наиболее сложными задачами.
Наши дальнейшие исследования показывают, что LLM испытывают трудности с интеграцией нескольких правил или фактов и подвержены отвлечению нерелевантной информации. Разработка R,ULE,A,RENA представляет собой важный шаг в улучшении возможностей LLM для решения сложных задач. Мы видим в R,ULE,A,RENA основу для будущих исследований, направленных на улучшение производительности LLM в решении все более сложных задач.