Свежая выжимка ml и AI статей - каждый день
Retrieval-Augmented Generation (RAG) представляет собой мощный подход в области обработки естественного языка, который позволяет моделям, основанным на больших языковых моделях (LLM), интегрировать внешние источники знаний для улучшения качества ответов на запросы. Эта методология позволяет моделям отвечать на вопросы с использованием актуальной информации, выходящей за пределы их обучающего корпуса, тем самым снижая вероятность «галлюцинаций» — генерации неверной информации. Однако, одной из критических составляющих RAG является качество внешней базы знаний, которая часто формируется на основе неструктурированных данных, таких как сканированные PDF-документы, с использованием технологий оптического распознавания текста (OCR).
OCR, в свою очередь, сталкивается с различными проблемами, связанными с точностью распознавания, что приводит к шуму в данных. В данной статье мы рассмотрим влияние OCR на производительность RAG-систем, а также представим OHRBench — новый бенчмарк для оценки каскадного воздействия OCR на RAG.
RAG сочетает в себе две ключевые компоненты: извлечение и генерацию. В процессе извлечения система находит релевантные документы или фрагменты текста из внешней базы данных, а затем в процессе генерации формирует ответ, опираясь на извлеченные данные. Это позволяет значительно улучшить точность и актуальность ответов, особенно в ситуациях, когда необходима информация, не содержащаяся в обучающем наборе модели.
Одной из основных проблем, с которыми сталкиваются RAG-системы, является шум, вводимый OCR. Ошибки распознавания могут быть двух типов: семантический шум и шум форматирования. Семантический шум возникает из-за ошибок в распознавании текста, таких как опечатки или неверно распознанные символы. Шум форматирования связан с неправильным представлением структурированных данных, таких как таблицы и формулы, что может усложнять их дальнейшую обработку.
OHRBench — это первый бенчмарк, разработанный для оценки влияния OCR на RAG-системы. Он включает 350 тщательно отобранных неструктурированных PDF-документов из шести реальных областей применения RAG, таких как юриспруденция, финансы, газеты, учебные пособия и академические статьи. Каждый документ содержит много модальных элементов, таких как таблицы и формулы, что представляет собой вызов для существующих решений OCR.
OHRBench включает в себя два основных компонента:
В рамках OHRBench была проведена обширная оценка существующих решений OCR, включая системы на основе пайплайнов, модели end-to-end и Vision-Language Models (VLM). Результаты показали, что ни одно из решений не способно обеспечить высококачественные базы знаний для RAG-систем.
Семантический шум оказал значительное влияние на производительность как на этапе извлечения, так и на этапе генерации. В то время как шум форматирования в основном затрагивает вопросы, связанные с много модальными элементами, и его влияние варьируется в зависимости от конкретных моделей и систем.
Одним из интересных направлений является использование VLM в RAG-системах без применения OCR. Исследования показывают, что комбинирование изображений и текстовых данных, полученных с помощью OCR, может улучшить производительность на 24.5%, что указывает на многообещающий потенциал применения VLM в RAG-системах.
В данной статье мы рассмотрели влияние OCR на производительность RAG-систем и представили OHRBench как новый инструмент для оценки этого влияния. Несмотря на прогресс в области OCR, текущие решения все еще сталкиваются с рядом проблем, которые могут негативно сказаться на качестве извлеченной информации. В будущем необходимо разработать более устойчивые к шуму решения OCR, а также исследовать возможности интеграции VLM в RAG-системы для улучшения их производительности.