Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

В последние годы исследования в области мультимодальных больших языковых моделей (MLLM) становятся все более популярными. Эти модели предназначены для выполнения широкого спектра задач, включая визуальные вопросы и ответы (VQA), обнаружение объектов, распознавание текста (OCR) и анализ графиков. Однако, несмотря на свою универсальность, MLLM сталкиваются с проблемой "конфликта мультизадачности", когда данные из различных задач смешиваются без учета их различий в представлении и распределении, что приводит к снижению производительности.

В этом контексте мы представляем Awaker2.5-VL, инновационную архитектуру, основанную на смеси экспертов (MoE), которая решает эту проблему, используя множество разреженно активируемых экспертов для приобретения многофункциональных способностей. Каждый эксперт в нашей модели реализован как структура низкоранговой адаптации (LoRA), что позволяет ускорить процесс обучения и вывода. Наши эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL.

Основные концепции

Мультимодальные большие языковые модели (MLLM)

MLLM интегрируют обработку визуальной и текстовой информации, что позволяет им выполнять задачи, требующие понимания как изображений, так и текстов. Они могут генерировать описания изображений, отвечать на вопросы о содержимом изображений, обнаруживать объекты и даже читать текст на изображениях. Однако, несмотря на свою мощность, они сталкиваются с проблемами при обработке данных из разных источников и задач.

Проблема "конфликта мультизадачности"

Когда данные из различных задач объединяются без учета их специфики, модель может терять специфические навыки, необходимые для каждой из задач. Например, задача создания описания изображения требует от модели восприятия всей сцены и генерации связного текста, в то время как задача обнаружения объектов требует точного определения местоположения объектов. Смешивание этих данных может привести к тому, что модель не сможет эффективно выполнять ни одну из этих задач.

Архитектура Awaker2.5-VL

Awaker2.5-VL использует архитектуру смеси экспертов (MoE), где каждый эксперт специализируется на определенной задаче или наборе задач. Это позволяет модели:

Активировать экспертов по необходимости: Гейт-механизм автоматически выбирает, какие эксперты будут активированы для обработки конкретного входного примера.
Обеспечивать общую способность: Включает глобального эксперта, который всегда активен, чтобы обеспечить общую генерализацию и универсальность модели.
Использовать LoRA для ускорения: Каждый эксперт представлен как LoRA-структура, что значительно снижает время обучения и вывода.

Обучение и вывод

Этап I: Инициализация обучения: Добавляется LoRA-модуль к базовой модели, и обучаются только параметры LoRA, в то время как базовая модель остается замороженной.
Этап II: Обучение MoE: LoRA-модуль заменяется на MoE-модуль, где каждый эксперт инициализируется параметрами, обученными на предыдущем этапе. Обучаются только параметры MoE.
Этап III: Инструкционное тонкое настройка: Замораживается гейт-сеть, и обучаются только эксперты для улучшения производительности на конкретных задачах.

Эксперименты и результаты

Awaker2.5-VL был протестирован на нескольких последних бенчмарках, таких как MME-RealWorld и MMBench:

MME-RealWorld: Наша модель показала лучшие результаты по общей оценке, восприятию и рассуждению, особенно в китайских сценариях, значительно превзойдя базовую модель Qwen2-VL-7B-Instruct.
MMBench: Awaker2.5-VL занял высокие позиции в рейтингах, превосходя модели с аналогичным размером параметров.

Заключение и перспективы

Awaker2.5-VL представляет собой значительный шаг вперед в решении проблемы конфликта мультизадачности в MLLM. В будущем мы планируем:

Улучшить методы представления инструкций для повышения точности маршрутизации.
Расширить применение MoE-архитектуры на другие части мультимодальной модели, такие как визуальный трансформер (ViT).

Awaker2.5-VL уже демонстрирует превосходные результаты, и мы уверены, что дальнейшие исследования и улучшения позволят еще больше расширить возможности мультимодальных моделей.

Статья на arxiv Оригинал pdf moe vqa lora

Ай Дайджест