Свежая выжимка ml и AI статей - каждый день
Извлечение содержимого из документов — это ключевая задача в области компьютерного зрения, которая фокусируется на точном извлечении данных из различных типов документов. С ростом требований к качеству данных для больших языковых моделей (LLM) и технологий, основанных на извлечении и дополнении (RAG), важность этой задачи становится все более очевидной. Однако существующие методы обработки документов сталкиваются с серьезными ограничениями, особенно в отношении разнообразия и комплексной оценки. В ответ на эти вызовы был разработан новый многофункциональный бенчмарк — OmniDocBench.
OmniDocBench представляет собой новаторский бенчмарк, предназначенный для продвижения автоматизированного извлечения содержимого из документов. Он включает в себя тщательно подобранный и аннотированный набор данных, состоящий из девяти различных типов документов, таких как научные статьи, учебники и слайды. Бенчмарк предоставляет гибкую и комплексную оценочную структуру с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по отдельным модулям, так и по конкретным типам данных.
Основные цели OmniDocBench заключаются в следующем:
Современные методы извлечения содержимого из документов имеют значительные недостатки:
OmniDocBench включает в себя 981 страницу из девяти различных типов документов, охватывающих широкий спектр реальных сценариев. Каждая страница аннотирована с учетом глобальных атрибутов, включая язык текста, тип макета и индикаторы, такие как размытие сканов или водяные знаки.
Процесс аннотации в OmniDocBench включает несколько этапов:
Оценочная методология OmniDocBench включает в себя несколько модулей, таких как извлечение, алгоритм сопоставления и расчет метрик. Это гарантирует, что OmniDocBench автоматически выполняет унифицированную оценку для задач извлечения содержимого документов, тем самым обеспечивая надежные и эффективные результаты.
С использованием OmniDocBench была проведена всесторонняя оценка основных методов извлечения содержимого, включая как модульные, так и мультимодальные подходы. Результаты показали, что специализированные инструменты, такие как MinerU и Mathpix, демонстрируют наилучшие результаты для английских и китайских страниц соответственно. В то же время, даже лучшие общие модели, такие как GPT-4o, показывают разрыв в производительности по сравнению с этими специализированными решениями.
Результаты оценки показывают, что:
OmniDocBench представляет собой значительный шаг вперед в области извлечения содержимого из документов, предлагая разнообразный набор данных и комплексную оценочную структуру. Этот бенчмарк не только помогает в оценке существующих методов, но и открывает новые горизонты для будущих исследований и разработок в области обработки документов. С его помощью исследователи и разработчики смогут создавать более надежные и эффективные решения для извлечения содержимого, что, в свою очередь, будет способствовать развитию технологий, основанных на больших языковых моделях и извлечении информации.