Свежая выжимка ml и AI статей - каждый день
Retrieval-Augmented Generation (RAG) представляет собой одно из самых перспективных направлений в области больших языковых моделей (LLMs). Эти технологии позволяют интегрировать внешние источники информации с внутренними знаниями LLM для улучшения качества генеративных AI-систем. Однако, несмотря на их успехи, существует необходимость в высококачественных и автоматизированных бенчмарках для оценки производительности RAG в специализированных областях, таких как финансы. В этой статье мы рассмотрим OmniEval — новый автоматизированный и многомерный бенчмарк для оценки RAG-систем в финансовом секторе.
OmniEval использует матричную систему оценки, которая классифицирует запросы на основе двух ортогональных измерений: классов задач и тематических категорий. Это позволяет более детально и структурированно оценивать способности RAG-систем. Запросы делятся на пять классов задач:
Также выделяются 16 тематических категорий, таких как инвестиции, страхование, финтех и другие. Это приводит к созданию матрицы, где каждая ячейка представляет собой уникальный сценарий запроса, что позволяет проводить более детальную оценку производительности RAG.
Для создания высококачественного оценочного набора данных OmniEval комбинирует автоматическую генерацию данных на основе GPT-4 и аннотацию людьми. Это обеспечивает гибкость и возможность адаптации к различным доменам, сохраняя при этом высокое качество сгенерированных данных. В результате экспериментов было установлено, что уровень принятия автоматически сгенерированных примеров составляет 87,47%, что подтверждает эффективность используемого подхода.
OmniEval оценивает как качество извлечения информации, так и качество генерации ответов. Это особенно важно для специализированных областей, таких как финансы, где открытые модели могут не обладать достаточной экспертной информацией. Многоуровневая система оценки позволяет получить более полное представление о производительности RAG-систем.
Для надежной оценки RAG-систем в OmniEval используются две группы метрик: основанные на правилах и основанные на LLM. Первые включают широко используемые метрики, такие как MAP и Rouge, в то время как вторые разрабатываются с помощью LLM для оценки более высокоуровневых аспектов, таких как обнаружение галлюцинаций и полнота ответов. Это позволяет обеспечить надежность оценок через ручную аннотацию и дообучение LLM-оценщика.
Первым шагом в создании OmniEval является сбор обширного корпуса финансовых документов из различных источников, включая открытые финансовые вызовы и специализированные веб-страницы. Это обеспечивает разнообразие и полноту информации, необходимой для оценки RAG-систем.
После создания корпуса знаний используется многоагентная система на базе GPT-4 для автоматической генерации вопросов и ответов. Это позволяет эффективно создавать разнообразные сценарии запросов, которые затем используются для тестирования RAG-систем.
В рамках OmniEval проводятся эксперименты с различными RAG-моделями, которые включают как оценку извлечения информации, так и оценку качества генерации. Это позволяет получить полное представление о производительности моделей в различных сценариях.
В рамках исследования были проведены обширные эксперименты с различными RAG-системами, включая GTE-Qwen2-1.5B и BGE-large-zh. Результаты показали, что RAG-модели в целом превосходят закрытые LLM в оценочных наборах, что подчеркивает важность извлечения внешней информации для повышения качества ответов.
Общие результаты экспериментов показали, что GTE-Qwen2-1.5B превосходит все сравниваемые модели по большинству метрик. Это подтверждает, что использование предварительно обученных LLM может значительно улучшить качество извлечения информации и генерации ответов в специализированных доменах.
Анализ производительности RAG-моделей по различным темам показал, что модели демонстрируют разные результаты в зависимости от специфики задачи. Это указывает на необходимость дальнейшего исследования для балансировки способностей RAG-систем в различных областях.
При оценке по различным задачам было обнаружено, что RAG-модели хуже всего справляются с многошаговыми рассуждениями и разговорными задачами. Это подчеркивает необходимость улучшения моделей в сложных сценариях, требующих глубокого понимания контекста.
OmniEval представляет собой значительный шаг вперед в оценке RAG-систем в финансовой области. Его многоуровневая структура оценки, комбинированная с автоматизированной генерацией данных и надежными метриками, обеспечивает высокую степень надежности и точности в оценках. Результаты экспериментов показывают, что существует значительный потенциал для улучшения существующих RAG-моделей, особенно в сложных и специализированных задачах. OmniEval открывает новые горизонты для будущих исследований и разработок в области генеративного AI и специализированных приложений.