Свежая выжимка ml и AI статей - каждый день
В эпоху цифровизации способность понимать и отвечать на вопросы по длинным документам становится не просто полезной, но и необходимой для множества бизнес-приложений и практических задач. Документы, содержащие текст, рисунки, таблицы и другие мультимодальные элементы, могут быть настолько объемными, что их полное прочтение и анализ человеком становятся крайне затруднительными. В связи с этим возникает острая необходимость в разработке эффективных автоматизированных методов, которые могли бы помочь в этом процессе.
В данной статье мы представляем бенчмарк M-LongDoc, разработанный для оценки производительности крупных мультимодальных моделей при работе с длинными документами, а также описываем новый подход к настройке моделей с учётом извлечения информации (retrieval-aware tuning), который позволяет улучшить эффективность и точность обработки таких документов.
Для создания бенчмарка M-LongDoc мы вручную отобрали высококачественные мультимодальные документы из открытых источников, включая научные статьи, корпоративные отчеты и инструкции к продуктам. Эти документы охватывают академическую, финансовую и продуктовую области, представляя собой широкий спектр форматов и тематик.
Для создания разнообразных и сложных вопросов мы использовали полуавтоматизированный процесс:
Оценка ответов на вопросы из M-LongDoc требует специального подхода из-за их сложности и объемности. Мы разработали систему оценки, основанную на комитете моделей-судей:
Предварительные исследования показали, что существующие модели имеют значительные трудности с обработкой длинных документов, особенно когда речь идет о вопросах, связанных с таблицами и рисунками. Модели часто демонстрируют предвзятость к текстовому содержанию, игнорируя важные визуальные элементы, и могут быть легко отвлечены неактуальным контентом.
Мы предложили подход к настройке моделей, который учитывает контекст, извлеченный из документа:
Эксперименты показали, что наш подход к настройке моделей с учётом извлечения информации приводит к улучшению на 4.6% в правильности ответов по сравнению с базовыми моделями. Это свидетельствует о том, что наш метод помогает моделям более эффективно использовать содержимое длинных мультимодальных документов, улучшая их способность к глубокому анализу и пониманию.
M-LongDoc и предложенный нами подход к настройке моделей с учётом извлечения информации представляют собой важный шаг вперёд в области понимания длинных документов. Они предоставляют исследователям и практикам инструменты для более тщательного тестирования и разработки систем мультимодального анализа документов, что может существенно облегчить работу с большими объемами данных в различных сферах деятельности.
Мы верим, что наша работа внесет значительный вклад в развитие технологий обработки естественного языка и искусственного интеллекта, делая анализ длинных документов более доступным и эффективным для широкого круга пользователей.