SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

С недавним успехом больших языковых моделей (LLM) в области обработки изображений, исследователи начали разрабатывать мультимодальные большие языковые модели (MLLM), которые объединяют возможности понимания и генерации изображений. Однако существующие подходы часто требуют сложных архитектур моделей и сложных процессов обучения, что увеличивает трудности в обучении и масштабировании моделей. В этой статье мы рассмотрим новый подход под названием SynerGen-VL, который предлагает более простую и мощную архитектуру для синергетического понимания и генерации изображений.

Проблемы существующих моделей

Современные модели, которые объединяют понимание и генерацию изображений, часто сталкиваются с несколькими ключевыми проблемами:

Сложность архитектуры: Многие модели требуют использования внешних диффузионных моделей для генерации изображений или различных целей обучения для понимания и генерации, что делает их сложными и трудоемкими в обучении.
Проблемы с разрешением: Существующие визуальные токенизаторы требуют низкого соотношения дискретизации, чтобы обеспечить точную реконструкцию изображений с высоким разрешением. Это приводит к длинным последовательностям визуальных токенов, что не подходит для LLM и ограничивает использование высококачественных изображений.
Обучение и обобщение: Интеграция визуальных возможностей в LLM требует значительных усилий в обучении, что может помешать предобученным знаниям LLM и снизить их общую способность к обобщению.

SynerGen-VL: Основные идеи

Архитектура SynerGen-VL

SynerGen-VL — это высокопроизводительная унифицированная мультимодальная языковая модель, которая использует синергетические возможности понимания и генерации изображений. Основные особенности архитектуры включают:

Токенизация изображений: Использование дискретных визуальных токенов для представления изображений. Это позволяет модели работать с изображениями в рамках единой архитектуры, избегая необходимости в сложных внешних моделях.
Механизм сгибания токенов: Для поддержки высококачественных изображений, входные визуальные токены могут быть сжаты, чтобы уменьшить их длину. Это позволяет модели обрабатывать изображения с высоким разрешением, не теряя при этом важной информации.
Прогрессивная настройка с использованием экспертов по визуализации: Введение дополнительных параметров, специализированных для представления изображений, помогает минимизировать влияние на предобученные знания LLM, обеспечивая при этом интеграцию визуальных возможностей.

Механизм сгибания токенов

Механизм сгибания токенов позволяет значительно уменьшить длину последовательностей визуальных токенов, что делает их более подходящими для обработки LLM. В этом процессе визуальные токены сгибаются путем объединения нескольких токенов в один, уменьшая общую длину входной последовательности. Это позволяет модели эффективно обрабатывать изображения с высоким разрешением, сохраняя при этом важные детали.

Прогрессивная настройка

Прогрессивная настройка включает два этапа:

Первоначальная настройка: На первом этапе обучаются только визуальные параметры, используя большие объемы данных с шумом. Это помогает модели достичь базового понимания семантики изображений и их генерации.
Дальнейшая интеграция: На втором этапе модель обучается с использованием высококачественных данных для дальнейшей интеграции мультимодальных функций в предобученный LLM. Это позволяет модели одновременно выполнять задачи понимания и генерации изображений.

Результаты экспериментов

Сравнение с существующими моделями

В ходе экспериментов SynerGen-VL продемонстрировала результаты, сопоставимые или превосходящие существующие модели с аналогичными или меньшими размерами параметров. В частности, модель с 2.4 миллиарда параметров достигла результатов в понимании и генерации изображений на уровне моделей с 8 миллиардами параметров, таких как Emu3, что подчеркивает ее потенциал как перспективного решения для будущих унифицированных MLLM.

Оценка производительности

SynerGen-VL была протестирована на различных бенчмарках для оценки ее возможностей в понимании и генерации изображений. Результаты показали, что модель превосходит существующие подходы, особенно в задачах, требующих точного понимания изображений с высоким разрешением, таких как OCR и визуальные вопросы.

Заключение

SynerGen-VL представляет собой значительный шаг вперед в области унифицированных мультимодальных языковых моделей. Используя механизмы сгибания токенов и прогрессивную настройку с экспертами по визуализации, модель успешно объединяет возможности понимания и генерации изображений в упрощенной архитектуре. Результаты экспериментов показывают, что SynerGen-VL может эффективно обрабатывать высококачественные изображения, сохраняя при этом предобученные знания LLM. Это открывает новые горизонты для разработки более мощных и эффективных мультимодальных моделей в будущем.

Статья на arxiv Оригинал pdf pretraining training understanding

Ай Дайджест