M3D,OC,RAG: Революция в понимании документов с помощью многомодальных технологий
Визуальное ответное действие на вопросы из документов (DocVQA) обладает широкими возможностями применения. Существующие методы сосредоточены на обработке одностраничных документов с использованием мультимодальных языковых моделей (MLMs) или опираются на генерацию с улучшением через извлечение текста (RAG), которая использует инструменты извлечения текста, такие как оптическое распознавание символов (OCR). Однако, существуют сложности в применении этих методов в реальных сценариях: (а) вопросы часто требуют информации из разных страниц или документов, где MLMs не могут обрабатывать множество длинных документов; (б) документы часто содержат важную информацию в визуальных элементах, таких как диаграммы, но инструменты извлечения текста их игнорируют. Мы представляем M3DocRAG, новую мультимодальную RAG-фреймворк, который гибко адаптируется к различным контекстам документов (закрытый и открытый домен), типам вопросов (одношаговые и многошаговые) и модальностям доказательств (текст, график, изображение и т.д.). M3DocRAG находит соответствующие документы и отвечает на вопросы, используя мультимодальный извлекатель и MLM, что позволяет эффективно обрабатывать один или множество документов, сохраняя при этом визуальную информацию. Поскольку предыдущие наборы данных DocVQA задавали вопросы в контексте конкретного документа, мы также представляем M3DocVQA, новый бенчмарк для оценки DocVQA в открытом домене с более чем 3000 PDF-документов и 40000+ страниц. В трех бенчмарках (M3DocVQA/MMLongBench-Doc/MP-DocVQA) эмпирические результаты показывают, что M3DocRAG с ColPali и Qwen2-VL 7B демонстрирует превосходные результаты по сравнению с многими сильными базовыми моделями, включая рекордные результаты в MP-DocVQA. Мы предоставляем всесторонний анализ различных индексов, MLMs и моделей извлечения. Наконец, мы качественно показываем, что M3DocRAG может успешно справляться с различными сценариями, например, когда соответствующая информация распределена по нескольким страницам и когда доказательства ответа существуют только в изображениях.