Свежая выжимка ml и AI статей - каждый день
В мире, где информация часто разбросана по множеству документов, вопросно-ответные системы на основе визуального анализа документов (DocVQA) становятся всё более востребованными. Традиционные методы, такие как использование моделей языка с мультимодальными возможностями (MLM) для обработки одностраничных документов или применение текстового извлечения с последующей генерацией ответов на основе извлечённых текстов (RAG), сталкиваются с серьёзными ограничениями при работе с многостраничными и многодокументными источниками. В этой статье мы рассмотрим новый подход, представленный в исследовании "M3D,OC,RAG: Multi-modal Retrieval is What You Need for Multi-page, Multi-document Understanding", который обещает преодолеть эти ограничения и значительно улучшить понимание документов.
Традиционные MLM, такие как использование оптического распознавания символов (OCR) для извлечения текста, эффективны для обработки одностраничных документов. Однако, когда дело доходит до многостраничных или многодокументных источников, эти модели сталкиваются с проблемами:
Текстовый RAG, где используются модели для поиска релевантных текстовых фрагментов и генерации ответов, также имеет свои недостатки:
M3D,OC,RAG (Multi-modal Multi-page Multi-document Retrieval-Augmented Generation) представляет собой инновационную систему, которая объединяет многомодальные данные и RAG для улучшения понимания документов. Этот подход:
Эмбеддинг документов: Все страницы документов преобразуются в RGB-изображения, из которых извлекаются визуальные эмбеддинги с помощью модели ColPali.
Поиск страниц: Используется модель поиска, основанная на ColPali, для нахождения наиболее релевантных страниц на основе текстового запроса. Для ускорения поиска в открытом домене применяется инвертированный файловый индекс (IVF).
Генерация ответов: На основе найденных страниц и исходного запроса, многомодальная модель языка, например, Qwen2-VL, генерирует ответ.
Для оценки эффективности M3D,OC,RAG была разработана новая база данных M3D,OC,VQA, которая включает более 3000 PDF-документов и более 40000 страниц. Вопросы в этом бенчмарке требуют информации из различных модальностей, таких как текст, изображения и таблицы.
Эксперименты показали, что M3D,OC,RAG превосходит существующие методы:
Примеры из M3D,OC,VQA демонстрируют, как система может находить ответы, используя информацию из различных страниц и документов, а также из визуальных элементов, таких как логотипы игр или таблицы с данными.
M3D,OC,RAG представляет собой значительный шаг вперёд в области понимания документов. Интеграция многомодальных данных и эффективных методов поиска и генерации ответов позволяет системе работать с реальными сценариями, где информация может быть разбросана по множеству страниц и документов. Это открывает новые возможности для применения AI в таких областях, как финансы, здравоохранение и юриспруденция, где обработка больших объёмов документов является ключевым фактором для принятия информированных решений.