Свежая выжимка ml и AI статей - каждый день
Рассуждение на естественном языке является фундаментальным аспектом интеллекта, и задачи вопросно-ответных систем (QA) предоставляют количественные способы тестирования способностей к рассуждению интеллектуальных систем. В последние годы появление крупных языковых моделей (LLM) продемонстрировало беспрецедентные способности к рассуждению при ответах на вопросы. Однако, реальные приложения часто требуют более сложных рассуждений, таких как многошаговое рассуждение, где системы должны интегрировать информацию из нескольких источников и выполнять несколько шагов мышления в определённом порядке, чтобы прийти к окончательному ответу.
Для оценки многошаговых рассуждений LLM исследователи разработали несколько датасетов, включая HotpotQA, 2WikiMultiHopQA и MuSiQue. Эти датасеты предоставляют различные структуры для многошагового рассуждения, но они имеют свои ограничения. Например, они часто не предоставляют явные структуры рассуждений для каждой пары вопрос-ответ, что затрудняет понимание того, как LLM справляются с различными структурами рассуждений.
GRS-QA (Graph Reasoning-Structured Question Answering Dataset) представляет собой новый подход к созданию датасетов для многошагового вопросно-ответного взаимодействия. В отличие от существующих датасетов, GRS-QA включает в себя не только семантический контекст, но и явные структуры рассуждений в форме графов (reasoning graphs). Эти графы позволяют:
Каждый вопрос в GRS-QA сопровождается графом рассуждений, где узлы представляют предложения контекста, а рёбра - логические связи между ними. Графы рассуждений классифицируются по их структурной сложности, что позволяет исследовать, как различные структуры влияют на производительность моделей.
Для создания графов рассуждений используются предложения как узлы, а рёбра добавляются на основе их логических отношений, выведенных из исходных данных. Например, в датасете HotpotQA вопросы делятся на "мостовые" (bridge) и "сравнительные" (comparison). Для "мостовых" вопросов устанавливаются рёбра между предложениями, связанными ключевыми словами, в то время как для "сравнительных" вопросов рёбра не устанавливаются.
GRS-QA также включает в себя отрицательные графы рассуждений, где структура графа изменяется, чтобы оценить влияние структуры на производительность LLM. Отрицательные графы могут включать добавление лишних узлов или изменение направления рёбер, что позволяет исследовать, как модели справляются с неправильной или неполной информацией.
Для оценки GRS-QA использовались три ключевых подхода:
Использовались методы BM25, DPR и TF-IDF для извлечения релевантных предложений. BM25 показал наилучшие результаты в среднем, хотя его производительность снижалась с увеличением сложности вопросов. DPR и TF-IDF демонстрировали нестабильное поведение.
Три LLM - Llama3, GPT-3.5 и GPT4o-mini - были протестированы. GPT-3.5 показал наилучшие результаты, особенно на более простых вопросах, в то время как производительность всех моделей снижалась с увеличением сложности вопросов.
Эксперименты с различными типами подсказок (промптов) показали, что предоставление структурированной информации (графов рассуждений) улучшает производительность моделей. Однако, использование отрицательных графов могло привести к снижению производительности, подчеркивая важность точности и релевантности предоставляемых графов.
GRS-QA представляет собой значительный шаг вперёд в понимании и оценке способностей к многошаговому рассуждению LLM. Этот датасет предлагает уникальные возможности для исследования влияния структуры рассуждений на производительность моделей, выявляя области, где LLM могут столкнуться с трудностями. Будущие работы могут включать создание синтетических данных для уравновешивания распределения типов вопросов, а также интеграцию специализированных знаний для улучшения производительности в конкретных областях.
Таким образом, GRS-QA не только расширяет наши знания о способностях LLM к рассуждению, но и предлагает новые направления для разработки более эффективных и адаптивных систем вопросно-ответного взаимодействия.