R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В последние годы большие языковые модели (LLM) продемонстрировали впечатляющие возможности в различных приложениях, включая синтез кода и обслуживание клиентов. Однако их ограниченные знания в специфических областях часто приводят к созданию неверной или вводящей в заблуждение информации, что может вызвать значительные риски и финансовые потери. Например, недавно канадская авиакомпания была вынуждена компенсировать клиенту, который получил неправильные указания от чат-бота авиакомпании. Эти проблемы подчеркивают необходимость создания надежных реальных бенчмарков, которые оценивали бы, насколько точно и верно LLM могут следовать реальным инструкциям и соблюдать соответствующие правила.

В этом контексте мы представляем R,ULE,A,RENA — новый и сложный бенчмарк, предназначенный для оценки способности LLM следовать сложным правилам в реальных сценариях. Он охватывает три практические области: сборы за багаж авиакомпаний, транзакции в НБА и налоговые регуляции. R,ULE,A,RENA оценивает мастерство LLM в обработке сложных инструкций на естественном языке, которые требуют понимания длительного контекста, логического вывода и точных математических вычислений.

Что такое R,ULE,A,RENA?

R,ULE,A,RENA включает 95 распространенных и умеренно сложных правил и 816 тестовых задач из трех представительных реальных сценариев:

Сборы за багаж авиакомпаний — задача, требующая от LLM вычисления общей стоимости для одного или нескольких пассажиров, включая стоимость билета и сборы за зарегистрированный багаж.
Транзакции в НБА — задача, в которой LLM должна определить, разрешены ли определенные транзакции в соответствии с правилами НБА.
Налоговые регуляции — задача, требующая от LLM вычисления подоходного налога для одного человека или семьи на основе их финансовой информации.

Для каждой области мы собрали подлинные правила, которые в настоящее время применяются компаниями или государственными органами. Мы создаем набор сложных тестовых задач, сопоставляя каждый вопрос с истинным решением, а затем оцениваем ряд современных LLM на их способность соответствовать правилам.

Ключевые особенности R,ULE,A,RENA

В отличие от традиционных бенчмарков, основанных на правилах, R,ULE,A,RENA обладает двумя ключевыми атрибутами:

Расширение за пределы стандартных представлений логики первого порядка: R,ULE,A,RENA идет дальше простых формальных систем, таких как пропозициональная или логика первого порядка, и работает с более сложными логическими структурами, которые часто встречаются в реальных сценариях.
Привязка к подлинным сценариям: Бенчмарк основан на реальных правилах и сценариях, что позволяет получить более глубокие инсайты о пригодности и надежности LLM для практического применения.

Основные выводы

Наши исследования выявили несколько значительных ограничений в LLM:

Сложности в идентификации и применении правил: Модели часто не могут правильно определить и применить соответствующие правила, запутываясь в схожих, но различных регуляциях.
Непоследовательные математические вычисления: Даже когда LLM правильно определяет соответствующие правила, они не всегда могут выполнять точные математические вычисления.
Общее низкое качество выполнения задач: В целом, LLM показывают низкие результаты в рамках нашего бенчмарка, подчеркивая значительные трудности в развитии их возможностей в управлении правилами в реальных приложениях.

Связанные работы

Существуют различные бенчмарки, созданные для оценки способности LLM следовать инструкциям, однако многие из них сосредоточены на стилистических ограничениях, таких как ожидаемый формат или длина ответов. В отличие от этого, R,ULE,A,RENA фокусируется на сложных инструкциях, которые происходят непосредственно из реальной жизни, где сложные логические структуры возникают из многофакторных ограничений.

Сложные бенчмарки для следования инструкциям

Некоторые работы вводили бенчмарки, которые строят сложные инструкции через композиционные методы. Например, WizardLM генерирует сложные задачи, комбинируя более простые инструкции. В отличие от этого, наша работа фокусируется на инструкциях, которые происходят непосредственно из реальных сценариев, где сложности возникают из многообразных ограничений.

Логические бенчмарки

Существующие исследования оценивали способности LLM решать математические и логические задачи, однако, как правило, они основывались на упрощенных формальных системах. В отличие от этого, наш бенчмарк работает с правилами, которые возникают в естественном языке, захватывая более богатый и реалистичный набор ограничений.

Конструкция R,ULE,A,RENA

В этом разделе мы представим бенчмарк R,ULE,A,RENA и процесс его создания. Мы начнем с описания выбранных доменов и соответствующих регуляций, из которых были собраны наши правила. Затем мы расскажем, как генерируются задачи с различными уровнями сложности и как вычисляются истинные решения. Наконец, мы представим метрики оценки, которые мы использовали для оценки правильного применения правил.

Домен и сбор правил

Мы выбрали три реальных домена, которые знакомы в повседневной жизни и демонстрируют высокий уровень сложности:

Авиаперевозки: LLM должна вычислить общую стоимость для одного или нескольких пассажиров, включая стоимость билета и сборы за зарегистрированный багаж. Сложность возникает из-за того, что стоимость багажа варьируется в зависимости от различных факторов, таких как класс обслуживания, место отправления и назначения, количество зарегистрированных сумок и размер каждой сумки.
Транзакции в НБА: LLM должна определить, разрешены ли конкретные транзакции. Сложность возникает из-за множества факторов, влияющих на допустимость транзакций, включая стоимость контракта игрока и ограничения по зарплате.
Налоговые регуляции: LLM должна вычислить подоходный налог для одного человека или семьи, основываясь на их финансовой информации. Сложность возникает из-за множества факторов, включая доходы, инвестиционные прибыли, подарки и права собственности на жилье.

Аннотация задач

После сбора соответствующих правил для каждого домена мы создаем сложные тестовые задачи, предназначенные для оценки способности LLM к производству правильных выходных данных на основе предоставленных правил. В каждой задаче мы оцениваем, может ли LLM правильно использовать правила, чтобы решить поставленную задачу.

Оценочные метрики

Для достижения комплексной оценки способностей LLM следовать правилам, мы вводим набор оценочных метрик. В отличие от существующих бенчмарков, которые в основном полагаются на простые метрики, такие как точность ответов, наш подход направлен на более детальный анализ процесса логического вывода, включая проверку правильности применения правил.

Эксперименты

В этом разделе мы представим эксперименты, проведенные на бенчмарке R,ULE,A,RENA. Мы сначала представим LLM и стратегии подсказок, которые мы используем для оценки, а затем представим результаты оценки.

Настройки экспериментов

Мы рассматриваем LLM, которые могут обрабатывать длинные контексты, включая Llama-3.1, Claude-3.5 Sonnet и GPT-4o. Мы используем стратегию Chain-of-Thought (CoT) для многократного логического вывода.

Основные результаты

Наши эксперименты показывают, что существующие LLM, такие как GPT-4o и Claude-3.5 Sonnet, в основном не справляются с задачами сложного логического вывода. Модели испытывают трудности с интеграцией нескольких правил или фактов и подвержены отвлечению от нерелевантной информации.

Заключение

В этой статье мы представили R,ULE,A,RENA, реальный бенчмарк, предназначенный для оценки способностей LLM в различных задачах, связанных с логическим выводом. Мы наблюдаем, что существующие LLM сталкиваются с серьезными проблемами при решении задач на R,ULE,A,RENA, даже самые сильные модели, такие как Claude-3.5 и GPT-4o, едва ли могут справиться с нашими наиболее сложными задачами.

Наши дальнейшие исследования показывают, что LLM испытывают трудности с интеграцией нескольких правил или фактов и подвержены отвлечению нерелевантной информации. Разработка R,ULE,A,RENA представляет собой важный шаг в улучшении возможностей LLM для решения сложных задач. Мы видим в R,ULE,A,RENA основу для будущих исследований, направленных на улучшение производительности LLM в решении все более сложных задач.

Статья на arxiv Оригинал pdf models language instructions

Ай Дайджест