ChatRex: Объединение восприятия и понимания в многомодальных больших языковых моделях

Восприятие и понимание являются двумя основными столпами компьютерного зрения. Человеческий мозг сначала воспринимает объекты через визуальные сигналы, а затем обрабатывает эти сигналы для их понимания. В последние годы многомодальные большие языковые модели (MLLM), такие как ChatGPT от OpenAI и другие, продемонстрировали впечатляющие способности в области визуального понимания. Тем не менее, они все еще испытывают трудности с точностью восприятия, особенно в задачах, требующих детального обнаружения объектов. Например, модель Qwen2-VL, одна из наиболее продвинутых на сегодняшний день, достигает лишь 43,9% уровня воспоминания (recall) на наборе данных COCO, что ограничивает ее применение в задачах, требующих совместного восприятия и понимания.

В данной работе мы представляем ChatRex, MLLM с декомпозированной архитектурой восприятия, которая направлена на преодоление этого разрыва в восприятии и понимании. Мы также разрабатываем новый набор данных под названием Rexverse-2M, который поддерживает совместное обучение этих двух аспектов.

Проблема восприятия в MLLM

Несмотря на успехи в области визуального понимания, MLLM продолжают испытывать недостатки в точности восприятия. Это связано с несколькими факторами:

Конфликты в моделировании: Традиционные подходы к обнаружению объектов часто требуют преобразования координат ограничивающих рамок в токены, что может привести к ошибкам и неэффективному обучению.
Недостаток данных: Существующие наборы данных часто не обеспечивают сбалансированного представления как восприятия, так и понимания, что затрудняет обучение моделей.

Для решения этих проблем мы предлагаем новый подход к архитектуре модели и структуре данных.

Архитектура ChatRex

ChatRex использует декомпозированную архитектуру, которая разделяет задачи восприятия и понимания. Это достигается через интеграцию языковой модели с визуальным энкодером и универсальной сетью предложений (Universal Proposal Network, UPN).

Универсальная сеть предложений (UPN)

UPN — это модель, основанная на DETR (End-to-End Object Detection with Transformers), которая может обнаруживать любые объекты на двух уровнях гранулярности. Она обеспечивает генерацию предложений, охватывающих различные категории и домены, что гарантирует надежные входные данные для языковой модели.

Двойной визуальный энкодер

Для улучшения восприятия ChatRex использует двойной визуальный энкодер, что позволяет интегрировать высокое разрешение визуальной информации. Один энкодер обрабатывает изображения с низким разрешением, а другой — с высоким, что обеспечивает более точное восприятие объектов.

Набор данных Rexverse-2M

Для поддержки обучения ChatRex мы разработали полностью автоматизированный движок данных, который генерирует набор данных Rexverse-2M. Этот набор данных включает в себя два миллиона аннотированных изображений с многоуровневыми аннотациями, что позволяет эффективно обучать модели как восприятию, так и пониманию.

Структура движка данных

Движок данных состоит из трех основных модулей:

Генерация описаний изображений: С помощью модели InternVL2-8B мы генерируем описания изображений, которые ссылаются на основные объекты в изображении.
Выравнивание объектов: Мы используем модель GroundingDINO для выравнивания объектов и фраз, что позволяет создавать надежные ограничивающие рамки.
Уточнение описаний регионов: Мы применяем дополнительные модели для уточнения описаний на разных уровнях гранулярности.

Обучение ChatRex

ChatRex обучается в два этапа. На первом этапе проводится выравнивание визуальных и текстовых признаков, а на втором этапе акцент делается на многомодальное понимание и диалоговые навыки.

Этап 1: Обучение выравниванию

На этом этапе мы обучаем модель выравниванию визуальных и текстовых признаков, используя наборы данных, такие как COCO и Rexverse-2M.

Этап 2: Обучение многомодальному пониманию

На втором этапе мы сосредоточены на улучшении диалоговых и многомодальных навыков, сохраняя при этом способности восприятия. Все параметры модели обучаются совместно на задачах восприятия и понимания.

Оценка производительности ChatRex

Мы оценили производительность ChatRex по нескольким направлениям, включая восприятие и понимание. Для восприятия мы использовали наборы данных COCO и LVIS, а для понимания — несколько общих многомодальных бенчмарков.

Оценка восприятия

ChatRex показывает сильные результаты в обнаружении объектов на наборе данных COCO, достигая 48,5% mAP, что сопоставимо с традиционными моделями обнаружения объектов. Это подтверждает, что ChatRex обладает мощными способностями восприятия.

Оценка понимания

На различных академических бенчмарках ChatRex демонстрирует результаты на уровне других ведущих MLLM. Мы также обнаружили, что совместное обучение восприятия и понимания существенно снижает количество "галлюцинаций", что подтверждает взаимодополняющие роли этих двух способностей.

Заключение

В данной работе мы продемонстрировали, что восприятие и понимание являются критически важными аспектами для MLLM. ChatRex, с его декомпозированной архитектурой и новым набором данных Rexverse-2M, показывает, что интеграция этих двух компонентов может значительно улучшить возможности модели и открыть новые горизонты для различных приложений. Мы уверены, что дальнейшие исследования в этой области приведут к еще более мощным и универсальным моделям, способным решать сложные задачи восприятия и понимания в реальном времени.

Статья на arxiv Оригинал pdf detection modeling training

Ай Дайджест