Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

В эпоху цифровизации способность понимать и отвечать на вопросы по длинным документам становится не просто полезной, но и необходимой для множества бизнес-приложений и практических задач. Документы, содержащие текст, рисунки, таблицы и другие мультимодальные элементы, могут быть настолько объемными, что их полное прочтение и анализ человеком становятся крайне затруднительными. В связи с этим возникает острая необходимость в разработке эффективных автоматизированных методов, которые могли бы помочь в этом процессе.

В данной статье мы представляем бенчмарк M-LongDoc, разработанный для оценки производительности крупных мультимодальных моделей при работе с длинными документами, а также описываем новый подход к настройке моделей с учётом извлечения информации (retrieval-aware tuning), который позволяет улучшить эффективность и точность обработки таких документов.

M-LongDoc: Бенчмарк для понимания и извлечения информации из длинных документов

Сбор данных

Для создания бенчмарка M-LongDoc мы вручную отобрали высококачественные мультимодальные документы из открытых источников, включая научные статьи, корпоративные отчеты и инструкции к продуктам. Эти документы охватывают академическую, финансовую и продуктовую области, представляя собой широкий спектр форматов и тематик.

Академическая область: Мы сосредоточились на статьях в области компьютерных наук, опубликованных с января 2024 года, чтобы избежать возможной предвзятости или запоминания данных существующими моделями.
Финансовая область: Включены годичные отчеты компаний, которые содержат как текстовые, так и визуальные элементы.
Продуктовая область: Инструкции к продуктам, которые часто содержат схемы, таблицы и другие иллюстрации.

Генерация вопросов

Для создания разнообразных и сложных вопросов мы использовали полуавтоматизированный процесс:

Выбор страницы: Случайно выбирается страница документа, содержащая определенный тип контента (текст, таблицы, рисунки).
Генерация вопросов: Используя ведущие мультимодальные модели, мы генерируем вопросы, требующие глубокого анализа и понимания содержимого страницы.
Верификация: Вопросы проходят через автоматическую проверку, а затем проверяются экспертами-аннотаторами для обеспечения качества и релевантности.

Автоматизированная оценка

Оценка ответов на вопросы из M-LongDoc требует специального подхода из-за их сложности и объемности. Мы разработали систему оценки, основанную на комитете моделей-судей:

Критерии оценки: Ответы оцениваются по критерию правильности, где модели-судьи присваивают оценку от 1 до 5.
Процесс оценки: Каждая модель-судья получает инструкцию, контекст страницы, вопрос и ответ, после чего выдает свою оценку. Мы используем несколько моделей-судей для уменьшения предвзятости и увеличения надежности оценки.

Подход к настройке с учётом извлечения информации

Проблемы существующих моделей

Предварительные исследования показали, что существующие модели имеют значительные трудности с обработкой длинных документов, особенно когда речь идет о вопросах, связанных с таблицами и рисунками. Модели часто демонстрируют предвзятость к текстовому содержанию, игнорируя важные визуальные элементы, и могут быть легко отвлечены неактуальным контентом.

Решение: Retrieval-Aware Tuning

Мы предложили подход к настройке моделей, который учитывает контекст, извлеченный из документа:

Обучение с шумом: Модели обучаются на данных, содержащих как релевантные, так и потенциально нерелевантные страницы, что позволяет им лучше игнорировать неактуальную информацию.
Корпус для обучения: Мы создали крупный корпус данных для обучения, включающий 10 070 образцов вопросов и ответов, что позволяет моделям адаптироваться к различным типам мультимодальных документов.

Результаты

Эксперименты показали, что наш подход к настройке моделей с учётом извлечения информации приводит к улучшению на 4.6% в правильности ответов по сравнению с базовыми моделями. Это свидетельствует о том, что наш метод помогает моделям более эффективно использовать содержимое длинных мультимодальных документов, улучшая их способность к глубокому анализу и пониманию.

Заключение

M-LongDoc и предложенный нами подход к настройке моделей с учётом извлечения информации представляют собой важный шаг вперёд в области понимания длинных документов. Они предоставляют исследователям и практикам инструменты для более тщательного тестирования и разработки систем мультимодального анализа документов, что может существенно облегчить работу с большими объемами данных в различных сферах деятельности.

Мы верим, что наша работа внесет значительный вклад в развитие технологий обработки естественного языка и искусственного интеллекта, делая анализ длинных документов более доступным и эффективным для широкого круга пользователей.

Статья на arxiv Оригинал pdf question-answering multimodal benchmark

Ай Дайджест