LoCAL: Контекстуальная адаптация крупных мультимодальных моделей для понимания длинных документов

В современном мире, где информация передается и сохраняется в документах, понимание длинных, визуально насыщенных документов становится все более важным. В этом контексте крупные мультимодальные модели (LMMs) показывают значительный прогресс, но сталкиваются с вызовами при работе с многостраничными документами. В статье представлен новый подход, названный LoCAL (LoRA-Contextualizing Adaptation of Large Multimodal Models), который расширяет возможности LMMs для понимания длинных документов.

Документы - это не просто текст; они включают в себя сложные макеты, таблицы, диаграммы, изображения и другие визуальные элементы. Понимание визуально насыщенных документов (VDU) является ключевой задачей в области исследований. LMMs, такие как GPT-4o, Gemini-1.5, Claude-3 и другие, демонстрируют впечатляющие способности в обработке и понимании документов, но традиционные методы, такие как использование парсеров документов для извлечения информации, имеют ограничения в производительности и эффективности.

Проблемы и решения

Традиционные методы

Традиционные методы включают в себя использование парсеров документов для извлечения информации и формирования запросов для LLM. Однако эти методы сталкиваются с проблемами:

Потеря контекста: Парсеры могут не восстановить макет документа в запросах.
Снижение производительности: Использование парсеров может привести к ухудшению качества ответов из-за потери контекста или ошибок в парсинге.

Представление всех страниц

Другой подход - предоставление всех страниц документа LMMs. Однако это приводит к:

Неэффективности: Особенно при обработке документов с сотнями страниц, где большинство страниц могут быть не релевантны запросу пользователя.

LoCAL: Решение проблемы

LoCAL предлагает новый подход, где LMMs используются как эффективные мультимодальные извлекатели информации. Вместо использования парсеров, LMMs кодируют каждую страницу документа и извлекают релевантные страницы на основе запроса пользователя.

Этапы работы LoCAL:

Кодирование страниц документа: LMMs преобразуют каждую страницу в эмбеддинг, который представляет содержание страницы.
Контекстуализированное позднее взаимодействие: Используется метод контекстуализированного позднего взаимодействия (Col) для оценки релевантности страницы к запросу.
Выбор и обработка релевантных страниц: Выбираются наиболее релевантные страницы, которые затем используются для ответа на вопросы пользователя.

Архитектура LoCAL

Архитектура LoCAL включает два основных модуля, основанных на LMMs:

Модуль извлечения доказательств: Этот модуль отвечает за выбор релевантных страниц. Он использует адаптер LoRA для настройки LMMs на задачу извлечения доказательств.
Модуль вопросно-ответной системы (QA): Этот модуль генерирует ответы на основе выбранных страниц. Он также использует адаптер LoRA для улучшения производительности на конкретных доменах.

Детали реализации

Кодирование и извлечение: Для каждой страницы документа и запроса пользователя используется LMM для создания эмбеддингов. Затем применяется контекстуализированное позднее взаимодействие для ранжирования страниц по релевантности.
Адаптеры LoRA: Адаптеры LoRA позволяют эффективно настраивать LMMs для различных задач, сохраняя при этом низкие требования к памяти.

Эксперименты и результаты

LoCAL был протестирован на нескольких общественных бенчмарках, включая SlideVQA, MMLongBench-Doc, DocVQA и DUDE. Результаты показывают, что LoCAL превосходит существующие методы по нескольким метрикам, включая точность извлечения доказательств и качество ответов на вопросы.

Выводы

Эффективность: LoCAL значительно улучшает эффективность обработки длинных документов, выбирая только релевантные страницы.
Производительность: С использованием адаптеров LoRA, LoCAL достигает высокой производительности на различных задачах понимания документов.
Память: Благодаря использованию одного LMM с двумя адаптерами, LoCAL сохраняет низкие требования к памяти, что делает его пригодным для использования на устройствах с ограниченными ресурсами.

Заключение

LoCAL представляет собой инновационный подход к пониманию длинных, визуально насыщенных документов с использованием LMMs. Этот метод позволяет эффективно извлекать и обрабатывать релевантную информацию, что открывает новые горизонты для применения LMMs в различных областях, от юридической до медицинской документации.

LoCAL не только улучшает понимание документов, но и делает этот процесс более доступным и эффективным, что может значительно повлиять на автоматизацию и анализ документов в будущем.

Статья на arxiv Оригинал pdf adaptation benchmarks documents

Ай Дайджест