Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

С недавним развитием мультимодальных больших языковых моделей (MLLMs) наблюдается значительный прогресс в области обработки изображений и текста. Одним из таких достижений является модель Florence-VL, которая использует генеративный визуальный кодировщик Florence-2 для улучшения представлений визуальных данных. В отличие от традиционных подходов, таких как CLIP, основанных на контрастивном обучении, Florence-2 предлагает более гибкие и многоуровневые представления визуальных характеристик, что позволяет адаптироваться к различным задачам.

Основной целью Florence-VL является интеграция визуальных представлений, созданных Florence-2, в предобученные языковые модели, такие как Phi 3.5 и LLaMA 3. Это достигается с помощью новой архитектуры слияния характеристик и инновационной методики обучения, известной как Depth-Breadth Fusion (DBFusion). Данная статья рассматривает ключевые аспекты и преимущества Florence-VL, включая ее архитектуру, методику обучения и результаты на различных бенчмарках.

Архитектура Florence-VL

Florence-VL состоит из нескольких компонентов, включая генеративный визуальный кодировщик Florence-2 и языковую модель. Архитектура Florence-2 использует унифицированный подход к обработке различных задач компьютерного зрения, таких как аннотирование изображений, обнаружение объектов и сегментация. Визуальные данные обрабатываются в виде токенов, которые затем интегрируются с текстовыми токенами для последующей обработки с помощью трансформеров.

Генеративный визуальный кодировщик Florence-2

Florence-2 представляет собой визуальный кодировщик, который использует генеративное обучение для извлечения визуальных характеристик. Он способен обрабатывать входные изображения и генерировать токены, представляющие визуальные данные на разных уровнях абстракции. Это позволяет Florence-2 захватывать как глобальные, так и локальные детали изображения, что критически важно для выполнения задач, требующих глубокого понимания визуального контекста.

Слияние характеристик: Depth-Breadth Fusion

Одной из ключевых особенностей Florence-VL является метод слияния характеристик, известный как Depth-Breadth Fusion (DBFusion). Этот подход позволяет объединять визуальные характеристики, извлеченные из различных слоев кодировщика, а также от различных текстовых подсказок.

Глубина (Depth) относится к различным уровням абстракции визуальных характеристик, которые захватывают как высокоуровневые концепции, так и детальные локальные особенности. Например, нижние уровни могут фокусироваться на текстуре и цвете, в то время как верхние уровни могут представлять общую композицию изображения.

Ширина (Breadth) подразумевает использование нескольких различных визуальных представлений, каждое из которых подчеркивает разные аспекты изображения. Это позволяет модели более эффективно справляться с разнообразными задачами, такими как распознавание текста (OCR) или определение пространственных отношений между объектами.

Методология обучения

Обучение Florence-VL включает два основных этапа: предобучение и дообучение.

Предобучение

На этапе предобучения модель обучается на большом наборе данных с аннотациями изображений. Это позволяет модели извлекать общие визуальные характеристики, которые могут быть использованы для различных задач. Важно отметить, что в отличие от других моделей, таких как LLaVA, Florence-VL проводит полное предобучение всей модели, включая как визуальный кодировщик, так и языковую модель.

Дообучение

На этапе дообучения модель адаптируется к специфическим задачам, используя разнообразные наборы данных для настройки. Это включает в себя использование пар аннотаций и инструкций, что позволяет модели лучше понимать контекст и требования различных задач.

Результаты и преимущества

Florence-VL демонстрирует значительные улучшения по сравнению с существующими моделями на различных бенчмарках, таких как VQA, OCR, и Chart. Одним из основных преимуществ Florence-VL является его способность к более точной визуально-языковой согласованности, что достигается за счет гибкой интеграции визуальных характеристик.

Качественный анализ

Качественный анализ визуальных характеристик Florence-VL показывает, что модель лучше справляется с задачами, требующими глубокого понимания визуального контекста. Например, в задачах OCR модель может более эффективно извлекать текстовые данные из изображений благодаря использованию специализированных визуальных представлений.

Количественный анализ

На количественном уровне Florence-VL показывает превосходные результаты на 25 различных бенчмарках, охватывающих как визуально-центрированные, так и знания-ориентированные задачи. Модель превосходит другие передовые MLLMs, такие как Cambrian и LLaVA, что подчеркивает ее эффективность и универсальность.

Заключение

Florence-VL представляет собой значительный шаг вперед в области мультимодальных языковых моделей, предлагая инновационный подход к интеграции визуальных и текстовых данных. Используя генеративный визуальный кодировщик Florence-2 и метод слияния Depth-Breadth Fusion, модель достигает высоких результатов на различных задачах, от распознавания текста до визуального вопросно-ответного взаимодействия. Открытые исходные коды и методики обучения Florence-VL обеспечивают основу для дальнейших исследований и разработок в области мультимодальных моделей, что открывает новые горизонты для применения в реальных задачах.

Статья на arxiv Оригинал pdf multimodal pretraining features

Ай Дайджест