Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "moe"

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

mllmocrmoe

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.