Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

Современные большие языковые модели, особенно многомодальные, значительно улучшили свои возможности благодаря интеграции визуальной информации. Однако, несмотря на успехи, существующие модели, основанные на Vision Transformers (ViTs), все еще сталкиваются с проблемами при решении универсальных задач. Основная причина этого заключается в недостаточной визуальной гранулярности, что затрудняет согласование с различными семантическими уровнями, необходимыми для генерации языка. В данной статье мы представляем LLaVA-UHD, v2 — усовершенствованную многомодальную языковую модель (MLLM), которая использует иерархический оконный трансформер для захвата разнообразной визуальной гранулярности через интеграцию высокоразрешающей пирамиды признаков.

Проблематика

Существующие модели, такие как CLIP, эффективно связывают визуальные и языковые особенности, однако они часто не способны захватывать все уровни визуальной информации, что приводит к снижению производительности на сложных задачах, таких как визуальное понимание и распознавание текста. Например, задачи визуальной привязки и распознавания оптических символов требуют как детализированных визуальных данных, так и высокоуровневой семантики. Это подчеркивает необходимость разработки методов, которые могут эффективно интегрировать многоуровневые визуальные представления.

Архитектура LLaVA-UHD, v2

LLaVA-UHD, v2 состоит из трех основных компонентов:

  1. Визуальный энкодер (ViT): Использует предварительно обученные модели, такие как CLIP-ViT, для извлечения визуальных признаков.
  2. Иерархический оконный трансформер (Hiwin Transformer): Основная новинка, позволяющая строить и интегрировать высокоразрешающую пирамиду признаков.
  3. Языковая модель (LLM): Обрабатывает визуальные токены для генерации текстовых ответов.

Иерархический оконный трансформер

Hiwin Transformer выполняет две ключевые операции:

  1. Конструкция обратной пирамиды признаков: Использует параметризованный модуль, называемый Joint Bilateral Upsampling (JBU), для извлечения высокочастотной информации из изображения и ее интеграции в многоуровневую пирамиду признаков.
  2. Иерархическое оконное внимание: Позволяет эффективно сжимать многоуровневые карты признаков, сохраняя при этом пространственные отношения на разных уровнях пирамиды.

Обратная пирамида признаков

Обратная пирамида признаков LLaVA-UHD, v2 строится путем увеличения разрешения признаков, полученных из ViT. Это делается с помощью JBU, который учитывает высокочастотные детали изображения, что позволяет избежать потерь критической информации при увеличении разрешения.

Иерархическое оконное внимание

Иерархическое оконное внимание организует признаки из разных уровней пирамиды, что позволяет модели захватывать семантику из локальных регионов на разных уровнях. Это внимание позволяет эффективно сжимать локально плотные признаки, сохраняя критические детали и высокоуровневую семантику.

Эксперименты и результаты

Эксперименты показали, что LLaVA-UHD, v2 значительно превосходит существующие MLLM на 14 популярных бенчмарках. В частности, была зафиксирована средняя прибавка в 3.7% по сравнению с базовыми методами, что подтверждает эффективность предложенной архитектуры.

Бенчмарки

Наиболее значимые результаты были получены на следующих задачах:

  • Документальная визуальная вопросно-ответная система (DocVQA): +9.3% по сравнению с предыдущими моделями.
  • Визуальная привязка (RefCOCO): среднее улучшение на 5.7%.
  • Высокое разрешение восприятия изображений (HR-Bench): +3.4%.

Эти результаты подчеркивают способность LLaVA-UHD, v2 к интеграции многоуровневой визуальной информации, что позволяет более точно выполнять задачи, требующие как детальных, так и абстрактных визуальных представлений.

Заключение

LLaVA-UHD, v2 представляет собой значительный шаг вперед в области многомодальных языковых моделей, предлагая инновационный подход к интеграции визуальных данных через иерархическую структуру. Успех данной модели в улучшении производительности на различных задачах подчеркивает важность захвата визуальной гранулярности для достижения более точной генерации языка. В будущем данная архитектура может быть адаптирована для других ViT-основных MLLM, что открывает новые горизонты для исследований в области интеграции визуальных и языковых данных.