Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM
Крупные языковые модели (LLM) преуспели в ответах на вопросы с несколькими этапами (M-QA) благодаря своим продвинутым способностям к рассуждению. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных QA, которые предоставляли бы детализированные структуры рассуждений. Чтобы восполнить этот пробел, мы представляем Набор данных для вопросно-ответной системы с графовыми структурами рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений, создавая графы рассуждений, где узлы представляют текстовые контексты, а связи обозначают логические потоки. Эти графы рассуждений различных структур позволяют детально оценить способности LLM к рассуждению на различных структурах рассуждений. Наш эмпирический анализ показывает, что LLM по-разному справляются с вопросами, имеющими различные структуры рассуждений. Это открытие способствует изучению текстовых структур в сравнении с семантикой.