Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM

Рассуждение на естественном языке является фундаментальным аспектом интеллекта, и задачи вопросно-ответных систем (QA) предоставляют количественные способы тестирования способностей к рассуждению интеллектуальных систем. В последние годы появление крупных языковых моделей (LLM) продемонстрировало беспрецедентные способности к рассуждению при ответах на вопросы. Однако, реальные приложения часто требуют более сложных рассуждений, таких как многошаговое рассуждение, где системы должны интегрировать информацию из нескольких источников и выполнять несколько шагов мышления в определённом порядке, чтобы прийти к окончательному ответу.

Для оценки многошаговых рассуждений LLM исследователи разработали несколько датасетов, включая HotpotQA, 2WikiMultiHopQA и MuSiQue. Эти датасеты предоставляют различные структуры для многошагового рассуждения, но они имеют свои ограничения. Например, они часто не предоставляют явные структуры рассуждений для каждой пары вопрос-ответ, что затрудняет понимание того, как LLM справляются с различными структурами рассуждений.

GRS-QA: Датасет с графовыми структурами рассуждений

Конструкция датасета

GRS-QA (Graph Reasoning-Structured Question Answering Dataset) представляет собой новый подход к созданию датасетов для многошагового вопросно-ответного взаимодействия. В отличие от существующих датасетов, GRS-QA включает в себя не только семантический контекст, но и явные структуры рассуждений в форме графов (reasoning graphs). Эти графы позволяют:

Прозрачно понимать логические шаги, которые LLM должны выполнить для достижения ответа.
Категоризировать вопросы по сложности их структуры рассуждений.
Анализировать производительность LLM на различных структурах рассуждений.

Каждый вопрос в GRS-QA сопровождается графом рассуждений, где узлы представляют предложения контекста, а рёбра - логические связи между ними. Графы рассуждений классифицируются по их структурной сложности, что позволяет исследовать, как различные структуры влияют на производительность моделей.

Построение графов рассуждений

Для создания графов рассуждений используются предложения как узлы, а рёбра добавляются на основе их логических отношений, выведенных из исходных данных. Например, в датасете HotpotQA вопросы делятся на "мостовые" (bridge) и "сравнительные" (comparison). Для "мостовых" вопросов устанавливаются рёбра между предложениями, связанными ключевыми словами, в то время как для "сравнительных" вопросов рёбра не устанавливаются.

Положительные и отрицательные графы рассуждений

GRS-QA также включает в себя отрицательные графы рассуждений, где структура графа изменяется, чтобы оценить влияние структуры на производительность LLM. Отрицательные графы могут включать добавление лишних узлов или изменение направления рёбер, что позволяет исследовать, как модели справляются с неправильной или неполной информацией.

Эксперименты и анализ

Методы оценки

Для оценки GRS-QA использовались три ключевых подхода:

Оценка извлечения информации: Измерение способности моделей извлекать правильные предложения для построения графов рассуждений.
Оценка прямого ответа: Проверка, насколько хорошо LLM отвечают на вопросы без предоставления контекста.
Оценка извлечения и генерации: Оценка производительности LLM при использовании извлечённых доказательств для генерации ответов.

Результаты

Извлечение информации

Использовались методы BM25, DPR и TF-IDF для извлечения релевантных предложений. BM25 показал наилучшие результаты в среднем, хотя его производительность снижалась с увеличением сложности вопросов. DPR и TF-IDF демонстрировали нестабильное поведение.

Производительность LLM

Три LLM - Llama3, GPT-3.5 и GPT4o-mini - были протестированы. GPT-3.5 показал наилучшие результаты, особенно на более простых вопросах, в то время как производительность всех моделей снижалась с увеличением сложности вопросов.

Влияние структуры графа

Эксперименты с различными типами подсказок (промптов) показали, что предоставление структурированной информации (графов рассуждений) улучшает производительность моделей. Однако, использование отрицательных графов могло привести к снижению производительности, подчеркивая важность точности и релевантности предоставляемых графов.

Заключение

GRS-QA представляет собой значительный шаг вперёд в понимании и оценке способностей к многошаговому рассуждению LLM. Этот датасет предлагает уникальные возможности для исследования влияния структуры рассуждений на производительность моделей, выявляя области, где LLM могут столкнуться с трудностями. Будущие работы могут включать создание синтетических данных для уравновешивания распределения типов вопросов, а также интеграцию специализированных знаний для улучшения производительности в конкретных областях.

Таким образом, GRS-QA не только расширяет наши знания о способностях LLM к рассуждению, но и предлагает новые направления для разработки более эффективных и адаптивных систем вопросно-ответного взаимодействия.

Статья на arxiv Оригинал pdf reasoning structures semantic

Ай Дайджест