Свежая выжимка ml и AI статей - каждый день
В современном мире, где информация передается и сохраняется в документах, понимание длинных, визуально насыщенных документов становится все более важным. В этом контексте крупные мультимодальные модели (LMMs) показывают значительный прогресс, но сталкиваются с вызовами при работе с многостраничными документами. В статье представлен новый подход, названный LoCAL (LoRA-Contextualizing Adaptation of Large Multimodal Models), который расширяет возможности LMMs для понимания длинных документов.
Документы - это не просто текст; они включают в себя сложные макеты, таблицы, диаграммы, изображения и другие визуальные элементы. Понимание визуально насыщенных документов (VDU) является ключевой задачей в области исследований. LMMs, такие как GPT-4o, Gemini-1.5, Claude-3 и другие, демонстрируют впечатляющие способности в обработке и понимании документов, но традиционные методы, такие как использование парсеров документов для извлечения информации, имеют ограничения в производительности и эффективности.
Традиционные методы включают в себя использование парсеров документов для извлечения информации и формирования запросов для LLM. Однако эти методы сталкиваются с проблемами:
Другой подход - предоставление всех страниц документа LMMs. Однако это приводит к:
LoCAL предлагает новый подход, где LMMs используются как эффективные мультимодальные извлекатели информации. Вместо использования парсеров, LMMs кодируют каждую страницу документа и извлекают релевантные страницы на основе запроса пользователя.
Кодирование страниц документа: LMMs преобразуют каждую страницу в эмбеддинг, который представляет содержание страницы.
Контекстуализированное позднее взаимодействие: Используется метод контекстуализированного позднего взаимодействия (Col) для оценки релевантности страницы к запросу.
Выбор и обработка релевантных страниц: Выбираются наиболее релевантные страницы, которые затем используются для ответа на вопросы пользователя.
Архитектура LoCAL включает два основных модуля, основанных на LMMs:
Модуль извлечения доказательств: Этот модуль отвечает за выбор релевантных страниц. Он использует адаптер LoRA для настройки LMMs на задачу извлечения доказательств.
Модуль вопросно-ответной системы (QA): Этот модуль генерирует ответы на основе выбранных страниц. Он также использует адаптер LoRA для улучшения производительности на конкретных доменах.
Кодирование и извлечение: Для каждой страницы документа и запроса пользователя используется LMM для создания эмбеддингов. Затем применяется контекстуализированное позднее взаимодействие для ранжирования страниц по релевантности.
Адаптеры LoRA: Адаптеры LoRA позволяют эффективно настраивать LMMs для различных задач, сохраняя при этом низкие требования к памяти.
LoCAL был протестирован на нескольких общественных бенчмарках, включая SlideVQA, MMLongBench-Doc, DocVQA и DUDE. Результаты показывают, что LoCAL превосходит существующие методы по нескольким метрикам, включая точность извлечения доказательств и качество ответов на вопросы.
Эффективность: LoCAL значительно улучшает эффективность обработки длинных документов, выбирая только релевантные страницы.
Производительность: С использованием адаптеров LoRA, LoCAL достигает высокой производительности на различных задачах понимания документов.
Память: Благодаря использованию одного LMM с двумя адаптерами, LoCAL сохраняет низкие требования к памяти, что делает его пригодным для использования на устройствах с ограниченными ресурсами.
LoCAL представляет собой инновационный подход к пониманию длинных, визуально насыщенных документов с использованием LMMs. Этот метод позволяет эффективно извлекать и обрабатывать релевантную информацию, что открывает новые горизонты для применения LMMs в различных областях, от юридической до медицинской документации.
LoCAL не только улучшает понимание документов, но и делает этот процесс более доступным и эффективным, что может значительно повлиять на автоматизацию и анализ документов в будущем.