Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации
Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."