OmniDocBench: Новая Эра в Извлечении Содержимого Документов
Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.