OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере
В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.