OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого из документов — это ключевая задача в области компьютерного зрения, которая фокусируется на точном извлечении данных из различных типов документов. С ростом требований к качеству данных для больших языковых моделей (LLM) и технологий, основанных на извлечении и дополнении (RAG), важность этой задачи становится все более очевидной. Однако существующие методы обработки документов сталкиваются с серьезными ограничениями, особенно в отношении разнообразия и комплексной оценки. В ответ на эти вызовы был разработан новый многофункциональный бенчмарк — OmniDocBench.

OmniDocBench: Обзор

OmniDocBench представляет собой новаторский бенчмарк, предназначенный для продвижения автоматизированного извлечения содержимого из документов. Он включает в себя тщательно подобранный и аннотированный набор данных, состоящий из девяти различных типов документов, таких как научные статьи, учебники и слайды. Бенчмарк предоставляет гибкую и комплексную оценочную структуру с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по отдельным модулям, так и по конкретным типам данных.

Задачи и Цели

Основные цели OmniDocBench заключаются в следующем:

Создание высококачественного и разнообразного оценочного набора данных.
Обеспечение гибкой и комплексной структуры оценки.
Проведение всестороннего сравнительного анализа существующих методов извлечения содержимого.

Проблемы Существующих Методов Извлечения

Современные методы извлечения содержимого из документов имеют значительные недостатки:

Ограниченное разнообразие типов документов: Большинство оценок сосредоточено на одном типе документов, в основном научных статьях, в то время как реальные сценарии включают учебники, экзаменационные работы, финансовые отчеты и другие типы документов.
Монотонные оценочные параметры: Методы, основанные на модулях, обычно оценивают отдельные алгоритмические модули, такие как OCR или детекция макета, тогда как для оценки общего качества результатов парсинга требуются более комплексные метрики.
Недостаточные оценочные метрики: Модели, основанные на мультимодальных подходах, пытаются оценить качество парсинга по нескольким измерениям, однако многие из них используют метрики, такие как BLEU или Edit Distance, которые не всегда адекватно отражают эффективность парсинга, особенно при работе с языками разметки, такими как LaTeX или HTML.

Структура OmniDocBench

Набор Данных

OmniDocBench включает в себя 981 страницу из девяти различных типов документов, охватывающих широкий спектр реальных сценариев. Каждая страница аннотирована с учетом глобальных атрибутов, включая язык текста, тип макета и индикаторы, такие как размытие сканов или водяные знаки.

Процесс Аннотации

Процесс аннотации в OmniDocBench включает несколько этапов:

Автоматизированная аннотация: Используются модели для предварительной аннотации макета и содержимого.
Ручная корректировка: Аннотаторы уточняют обнаруженные области, добавляя информацию о порядке чтения и атрибутах.
Качество аннотаций: Для обеспечения надежности аннотаций проводится экспертная проверка.

Оценочная Методология

Оценочная методология OmniDocBench включает в себя несколько модулей, таких как извлечение, алгоритм сопоставления и расчет метрик. Это гарантирует, что OmniDocBench автоматически выполняет унифицированную оценку для задач извлечения содержимого документов, тем самым обеспечивая надежные и эффективные результаты.

Сравнительный Анализ Существующих Методов

С использованием OmniDocBench была проведена всесторонняя оценка основных методов извлечения содержимого, включая как модульные, так и мультимодальные подходы. Результаты показали, что специализированные инструменты, такие как MinerU и Mathpix, демонстрируют наилучшие результаты для английских и китайских страниц соответственно. В то же время, даже лучшие общие модели, такие как GPT-4o, показывают разрыв в производительности по сравнению с этими специализированными решениями.

Результаты Оценки

Результаты оценки показывают, что:

Специализированные инструменты: Такие как MinerU и Mathpix, имеют явные преимущества в задачах распознавания текста, формул и таблиц.
Общие модели: Модели общего назначения, такие как GPT-4o, показывают хорошие результаты, но уступают специализированным инструментам, особенно в сложных сценариях.

Заключение

OmniDocBench представляет собой значительный шаг вперед в области извлечения содержимого из документов, предлагая разнообразный набор данных и комплексную оценочную структуру. Этот бенчмарк не только помогает в оценке существующих методов, но и открывает новые горизонты для будущих исследований и разработок в области обработки документов. С его помощью исследователи и разработчики смогут создавать более надежные и эффективные решения для извлечения содержимого, что, в свою очередь, будет способствовать развитию технологий, основанных на больших языковых моделях и извлечении информации.

Статья на arxiv Оригинал pdf extraction dataset benchmark

Ай Дайджест