Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Retrieval-Augmented Generation (RAG) представляет собой мощный подход в области обработки естественного языка, который позволяет моделям, основанным на больших языковых моделях (LLM), интегрировать внешние источники знаний для улучшения качества ответов на запросы. Эта методология позволяет моделям отвечать на вопросы с использованием актуальной информации, выходящей за пределы их обучающего корпуса, тем самым снижая вероятность «галлюцинаций» — генерации неверной информации. Однако, одной из критических составляющих RAG является качество внешней базы знаний, которая часто формируется на основе неструктурированных данных, таких как сканированные PDF-документы, с использованием технологий оптического распознавания текста (OCR).

OCR, в свою очередь, сталкивается с различными проблемами, связанными с точностью распознавания, что приводит к шуму в данных. В данной статье мы рассмотрим влияние OCR на производительность RAG-систем, а также представим OHRBench — новый бенчмарк для оценки каскадного воздействия OCR на RAG.

Что такое RAG?

RAG сочетает в себе две ключевые компоненты: извлечение и генерацию. В процессе извлечения система находит релевантные документы или фрагменты текста из внешней базы данных, а затем в процессе генерации формирует ответ, опираясь на извлеченные данные. Это позволяет значительно улучшить точность и актуальность ответов, особенно в ситуациях, когда необходима информация, не содержащаяся в обучающем наборе модели.

Проблемы OCR в RAG

Одной из основных проблем, с которыми сталкиваются RAG-системы, является шум, вводимый OCR. Ошибки распознавания могут быть двух типов: семантический шум и шум форматирования. Семантический шум возникает из-за ошибок в распознавании текста, таких как опечатки или неверно распознанные символы. Шум форматирования связан с неправильным представлением структурированных данных, таких как таблицы и формулы, что может усложнять их дальнейшую обработку.

OHRBench: Новый Бенчмарк для Оценки OCR

OHRBench — это первый бенчмарк, разработанный для оценки влияния OCR на RAG-системы. Он включает 350 тщательно отобранных неструктурированных PDF-документов из шести реальных областей применения RAG, таких как юриспруденция, финансы, газеты, учебные пособия и академические статьи. Каждый документ содержит много модальных элементов, таких как таблицы и формулы, что представляет собой вызов для существующих решений OCR.

Структура OHRBench

OHRBench включает в себя два основных компонента:

Набор данных вопросов и ответов (Q&A): Этот набор данных включает вопросы, основанные на много модальных элементах документов, что позволяет оценить влияние OCR на производительность RAG.
Пертурбированные структурированные данные: На основе текущих результатов OCR создаются наборы данных с различными уровнями семантического и форматного шума, что позволяет исследовать количественную зависимость между шумом OCR и производительностью RAG.

Оценка Текущих Решений OCR

В рамках OHRBench была проведена обширная оценка существующих решений OCR, включая системы на основе пайплайнов, модели end-to-end и Vision-Language Models (VLM). Результаты показали, что ни одно из решений не способно обеспечить высококачественные базы знаний для RAG-систем.

Влияние Семантического и Форматного Шума

Семантический шум оказал значительное влияние на производительность как на этапе извлечения, так и на этапе генерации. В то время как шум форматирования в основном затрагивает вопросы, связанные с много модальными элементами, и его влияние варьируется в зависимости от конкретных моделей и систем.

Потенциал Vision-Language Models (VLM)

Одним из интересных направлений является использование VLM в RAG-системах без применения OCR. Исследования показывают, что комбинирование изображений и текстовых данных, полученных с помощью OCR, может улучшить производительность на 24.5%, что указывает на многообещающий потенциал применения VLM в RAG-системах.

Заключение

В данной статье мы рассмотрели влияние OCR на производительность RAG-систем и представили OHRBench как новый инструмент для оценки этого влияния. Несмотря на прогресс в области OCR, текущие решения все еще сталкиваются с рядом проблем, которые могут негативно сказаться на качестве извлеченной информации. В будущем необходимо разработать более устойчивые к шуму решения OCR, а также исследовать возможности интеграции VLM в RAG-системы для улучшения их производительности.

Статья на arxiv Оригинал pdf rag llms evaluation

Ай Дайджест