Chimera: Улучшение универсальной модели с помощью специализированных экспертов

С недавними успехами в области больших мультимодальных моделей (LMM) стало очевидно, что масштабирование через увеличение объемов парных данных изображений и текста может значительно повысить производительность на общих задачах. Однако, несмотря на свою эффективность в широком круге приложений, универсальные модели в основном обучаются на веб-данных, где доминируют естественные изображения. Это приводит к тому, что они теряют специализированные возможности для выполнения задач, требующих обширных знаний в определенной области.

Часто специализированные задачи, такие как многомодальное рассуждение и извлечение визуального контента, требуют глубокой доменной экспертизы, которая не всегда может быть легко интегрирована в универсальные модели. В этой статье мы представим Chimera — масштабируемую и экономически эффективную мультимодальную архитектуру, которая усиливает существующие LMM с помощью специализированных экспертов.

Проблематика

Ограничения универсальных моделей

Хотя универсальные модели продемонстрировали впечатляющие результаты в общих задачах, они сталкиваются с серьезными ограничениями в специализированных областях. Например, задачи, связанные с графиками, таблицами и математическими функциями, требуют более высокой плотности текста и более абстрактного контента, что значительно отличается от того, что обычно представлено в естественных изображениях. Это создает разрыв в представлении, который затрудняет адаптацию универсальных моделей к специализированным задачам.

Специализированные эксперты

С другой стороны, множество исследований сосредоточено на разработке специализированных моделей для конкретных сценариев, что приводит к подходу "один для одного". Эти экспертные модели, хотя и обладают сильными способностями в своих областях, часто подвергаются критике за свою ограниченность в обобщении на более широкий круг задач. Проблема заключается в том, что данные, необходимые для обучения специализированных моделей, часто являются закрытыми или недоступными.

Chimera: Новое решение

Chimera предлагает интуитивное решение для преодоления этих ограничений, интегрируя специализированные модели в универсальные LMM. Это достигается с помощью прогрессивной стратегии обучения, которая включает в себя интеграцию функций из экспертных моделей в входные данные универсальной модели.

Архитектура Chimera

Chimera состоит из нескольких компонентов:

Общий визуальный энкодер (E_g): отвечает за извлечение общих визуальных признаков.
Проектор (P_g): проецирует визуальные признаки в пространство слов.
Модель языка (f): инициализируется из предварительно обученной LMM.
Роутер (R): определяет, какую экспертную модель вызывать в зависимости от входных данных.
Набор специализированных моделей (S_e): содержит модели, обученные на конкретных задачах, таких как таблицы, графики и математика.

Механизм GSCM

Одной из ключевых инноваций Chimera является механизм "Сотрудничество общего и специализированного" (GSCM), который помогает устранить несоответствия между общими и специализированными моделями. Этот механизм позволяет модели сосредоточиться на специализированной информации, что приводит к более эффективной интеграции знаний из различных источников.

Методология

Обзор Chimera

Chimera использует прогрессивную стратегию обучения, которая включает два основных этапа: выравнивание доменной информации и настройка визуальных инструкций. На первом этапе модель обучается на задачах, которые помогают интегрировать знания из специализированных моделей. На втором этапе модель настраивается на выполнение конкретных задач с использованием данных из различных доменов.

Интеграция экспертов

Процесс интеграции включает в себя выполнение двух основных подходов:

Непосредственная дообучение на доменных данных: этот подход позволяет универсальной модели адаптироваться к специализированным задачам.
Последовательное добавление функций из различных энкодеров: этот подход позволяет интегрировать знания из различных специализированных моделей.

Эксперименты и результаты

Chimera была протестирована на нескольких сложных задачах, включая многомодальное рассуждение и извлечение визуального контента. Результаты показали, что Chimera значительно превосходит существующие LMM на специализированных задачах, устанавливая новые стандарты производительности.

Сравнение с другими моделями

Chimera продемонстрировала выдающиеся результаты по сравнению с как универсальными, так и специализированными моделями. Например, на тестах MathVista и MathVerse Chimera достигла точности 64.9% и 32.4% соответственно, что является новым рекордом для моделей аналогичного масштаба.

Влияние механизма GSCM

Анализ показал, что применение механизма GSCM значительно улучшает производительность на специализированных задачах. Модель, использующая GSCM, показала более высокую точность и лучшую адаптацию к различным задачам, чем модели, которые не использовали этот механизм.

Заключение

Chimera представляет собой значительный шаг вперед в интеграции специализированных знаний в универсальные мультимодальные модели. Используя прогрессивные стратегии обучения и механизм GSCM, Chimera демонстрирует, что возможно создать мощную и универсальную модель, способную справляться с разнообразными специализированными задачами. Открытость и доступность модели ожидается, что ускорит дальнейшие исследования в области LMM и откроет новые горизонты для применения искусственного интеллекта.

Chimera не только улучшает производительность существующих моделей, но и открывает новые пути для исследования и разработки в области мультимодального обучения, что делает ее важным вкладом в развитие технологий AI.

Статья на arxiv Оригинал pdf model multi-modal integration

Ай Дайджест