OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

Retrieval-Augmented Generation (RAG) представляет собой одно из самых перспективных направлений в области больших языковых моделей (LLMs). Эти технологии позволяют интегрировать внешние источники информации с внутренними знаниями LLM для улучшения качества генеративных AI-систем. Однако, несмотря на их успехи, существует необходимость в высококачественных и автоматизированных бенчмарках для оценки производительности RAG в специализированных областях, таких как финансы. В этой статье мы рассмотрим OmniEval — новый автоматизированный и многомерный бенчмарк для оценки RAG-систем в финансовом секторе.

Основные концепции OmniEval

1. Матричная система оценки сценариев RAG

OmniEval использует матричную систему оценки, которая классифицирует запросы на основе двух ортогональных измерений: классов задач и тематических категорий. Это позволяет более детально и структурированно оценивать способности RAG-систем. Запросы делятся на пять классов задач:

Извлечение ответов на вопросы (Extractive QA)
Многошаговое рассуждение (Multi-hop Reasoning)
Долгосрочные вопросы и ответы (Long-form QA)
Сравнительные вопросы и ответы (Contrast QA)
Разговорные вопросы и ответы (Conversational QA)

Также выделяются 16 тематических категорий, таких как инвестиции, страхование, финтех и другие. Это приводит к созданию матрицы, где каждая ячейка представляет собой уникальный сценарий запроса, что позволяет проводить более детальную оценку производительности RAG.

2. Многомерная генерация оценочных данных

Для создания высококачественного оценочного набора данных OmniEval комбинирует автоматическую генерацию данных на основе GPT-4 и аннотацию людьми. Это обеспечивает гибкость и возможность адаптации к различным доменам, сохраняя при этом высокое качество сгенерированных данных. В результате экспериментов было установлено, что уровень принятия автоматически сгенерированных примеров составляет 87,47%, что подтверждает эффективность используемого подхода.

3. Многоуровневая система оценки

OmniEval оценивает как качество извлечения информации, так и качество генерации ответов. Это особенно важно для специализированных областей, таких как финансы, где открытые модели могут не обладать достаточной экспертной информацией. Многоуровневая система оценки позволяет получить более полное представление о производительности RAG-систем.

4. Многообразные метрики оценки

Для надежной оценки RAG-систем в OmniEval используются две группы метрик: основанные на правилах и основанные на LLM. Первые включают широко используемые метрики, такие как MAP и Rouge, в то время как вторые разрабатываются с помощью LLM для оценки более высокоуровневых аспектов, таких как обнаружение галлюцинаций и полнота ответов. Это позволяет обеспечить надежность оценок через ручную аннотацию и дообучение LLM-оценщика.

Конструкция бенчмарка OmniEval

1. Сбор знаний

Первым шагом в создании OmniEval является сбор обширного корпуса финансовых документов из различных источников, включая открытые финансовые вызовы и специализированные веб-страницы. Это обеспечивает разнообразие и полноту информации, необходимой для оценки RAG-систем.

2. Генерация оценочных примеров

После создания корпуса знаний используется многоагентная система на базе GPT-4 для автоматической генерации вопросов и ответов. Это позволяет эффективно создавать разнообразные сценарии запросов, которые затем используются для тестирования RAG-систем.

3. Оценка RAG-моделей

В рамках OmniEval проводятся эксперименты с различными RAG-моделями, которые включают как оценку извлечения информации, так и оценку качества генерации. Это позволяет получить полное представление о производительности моделей в различных сценариях.

Экспериментальные результаты

В рамках исследования были проведены обширные эксперименты с различными RAG-системами, включая GTE-Qwen2-1.5B и BGE-large-zh. Результаты показали, что RAG-модели в целом превосходят закрытые LLM в оценочных наборах, что подчеркивает важность извлечения внешней информации для повышения качества ответов.

1. Общие результаты

Общие результаты экспериментов показали, что GTE-Qwen2-1.5B превосходит все сравниваемые модели по большинству метрик. Это подтверждает, что использование предварительно обученных LLM может значительно улучшить качество извлечения информации и генерации ответов в специализированных доменах.

2. Оценка по темам

Анализ производительности RAG-моделей по различным темам показал, что модели демонстрируют разные результаты в зависимости от специфики задачи. Это указывает на необходимость дальнейшего исследования для балансировки способностей RAG-систем в различных областях.

3. Оценка по задачам

При оценке по различным задачам было обнаружено, что RAG-модели хуже всего справляются с многошаговыми рассуждениями и разговорными задачами. Это подчеркивает необходимость улучшения моделей в сложных сценариях, требующих глубокого понимания контекста.

Заключение

OmniEval представляет собой значительный шаг вперед в оценке RAG-систем в финансовой области. Его многоуровневая структура оценки, комбинированная с автоматизированной генерацией данных и надежными метриками, обеспечивает высокую степень надежности и точности в оценках. Результаты экспериментов показывают, что существует значительный потенциал для улучшения существующих RAG-моделей, особенно в сложных и специализированных задачах. OmniEval открывает новые горизонты для будущих исследований и разработок в области генеративного AI и специализированных приложений.

Статья на arxiv Оригинал pdf rag evaluation benchmark

Ай Дайджест