Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "documents"

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

Большие мультимодальные модели (LMMs) недавно показали значительный прогресс в понимании изображений, богатых текстом, однако они все еще сталкиваются с трудностями при работе со сложными, многостраничными, визуально насыщенными документами. Традиционные методы, использующие парсеры документов для генерации на основе извлечения информации, страдают от ограничений в производительности и эффективности, в то время как прямое предоставление всех страниц LMMs приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую рамку под названием LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы демонстрируем, что LMMs могут эффективно служить в качестве мультимодальных извлекателей, находя соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с использованием двух специфических адаптеров LMM: один для извлечения доказательственных страниц, другой для ответов на вопросы. Эмпирические результаты показывают передовые результаты на публичных бенчмарках, демонстрируя эффективность LoCAL.