Свежая выжимка ml и AI статей - каждый день
С недавними успехами в области больших мультимодальных моделей (LMM) стало очевидно, что масштабирование через увеличение объемов парных данных изображений и текста может значительно повысить производительность на общих задачах. Однако, несмотря на свою эффективность в широком круге приложений, универсальные модели в основном обучаются на веб-данных, где доминируют естественные изображения. Это приводит к тому, что они теряют специализированные возможности для выполнения задач, требующих обширных знаний в определенной области.
Часто специализированные задачи, такие как многомодальное рассуждение и извлечение визуального контента, требуют глубокой доменной экспертизы, которая не всегда может быть легко интегрирована в универсальные модели. В этой статье мы представим Chimera — масштабируемую и экономически эффективную мультимодальную архитектуру, которая усиливает существующие LMM с помощью специализированных экспертов.
Хотя универсальные модели продемонстрировали впечатляющие результаты в общих задачах, они сталкиваются с серьезными ограничениями в специализированных областях. Например, задачи, связанные с графиками, таблицами и математическими функциями, требуют более высокой плотности текста и более абстрактного контента, что значительно отличается от того, что обычно представлено в естественных изображениях. Это создает разрыв в представлении, который затрудняет адаптацию универсальных моделей к специализированным задачам.
С другой стороны, множество исследований сосредоточено на разработке специализированных моделей для конкретных сценариев, что приводит к подходу "один для одного". Эти экспертные модели, хотя и обладают сильными способностями в своих областях, часто подвергаются критике за свою ограниченность в обобщении на более широкий круг задач. Проблема заключается в том, что данные, необходимые для обучения специализированных моделей, часто являются закрытыми или недоступными.
Chimera предлагает интуитивное решение для преодоления этих ограничений, интегрируя специализированные модели в универсальные LMM. Это достигается с помощью прогрессивной стратегии обучения, которая включает в себя интеграцию функций из экспертных моделей в входные данные универсальной модели.
Chimera состоит из нескольких компонентов:
Одной из ключевых инноваций Chimera является механизм "Сотрудничество общего и специализированного" (GSCM), который помогает устранить несоответствия между общими и специализированными моделями. Этот механизм позволяет модели сосредоточиться на специализированной информации, что приводит к более эффективной интеграции знаний из различных источников.
Chimera использует прогрессивную стратегию обучения, которая включает два основных этапа: выравнивание доменной информации и настройка визуальных инструкций. На первом этапе модель обучается на задачах, которые помогают интегрировать знания из специализированных моделей. На втором этапе модель настраивается на выполнение конкретных задач с использованием данных из различных доменов.
Процесс интеграции включает в себя выполнение двух основных подходов:
Chimera была протестирована на нескольких сложных задачах, включая многомодальное рассуждение и извлечение визуального контента. Результаты показали, что Chimera значительно превосходит существующие LMM на специализированных задачах, устанавливая новые стандарты производительности.
Chimera продемонстрировала выдающиеся результаты по сравнению с как универсальными, так и специализированными моделями. Например, на тестах MathVista и MathVerse Chimera достигла точности 64.9% и 32.4% соответственно, что является новым рекордом для моделей аналогичного масштаба.
Анализ показал, что применение механизма GSCM значительно улучшает производительность на специализированных задачах. Модель, использующая GSCM, показала более высокую точность и лучшую адаптацию к различным задачам, чем модели, которые не использовали этот механизм.
Chimera представляет собой значительный шаг вперед в интеграции специализированных знаний в универсальные мультимодальные модели. Используя прогрессивные стратегии обучения и механизм GSCM, Chimera демонстрирует, что возможно создать мощную и универсальную модель, способную справляться с разнообразными специализированными задачами. Открытость и доступность модели ожидается, что ускорит дальнейшие исследования в области LMM и откроет новые горизонты для применения искусственного интеллекта.
Chimera не только улучшает производительность существующих моделей, но и открывает новые пути для исследования и разработки в области мультимодального обучения, что делает ее важным вкладом в развитие технологий AI.