Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В последние годы крупные языковые модели (LLM) значительно продвинули сферу искусственного интеллекта, демонстрируя свою эффективность в различных областях, таких как обработка естественного языка (NLP), компьютерное зрение (CV), речевые технологии и научные исследования. С появлением моделей вроде ChatGPT от OpenAI в 2022 году, мы стали свидетелями взрывного роста мощных LLM, которые открывают новые способы сбора и обработки информации, оказывая значительное влияние на повседневную жизнь людей.

С ростом спроса на более сложные системы искусственного интеллекта, исследователи исследуют новые подходы для расширения возможностей моделей. Одним из таких подходов является модель с смесью экспертов (MoE), которая объединяет несколько специализированных подмоделей для достижения высокой производительности в различных задачах с динамически активируемыми экспертами. Этот метод позволяет более эффективно проводить обучение и вывод данных.

Тенденция к созданию и открытому распространению MoE-структурированных LLM наблюдается все чаще, что способствует развитию сообщества LLM. Компания Tencent также внесла свой вклад, используя архитектуру MoE для своего AI-чатбота Yuanbao, который начал применять эту технологию с февраля 2024 года. Благодаря своим возможностям в чтении, письме и поиске, модель Hunyuan и чатбот Yuanbao помогают пользователям работать эффективнее и наслаждаться более насыщенной жизнью.

Hunyuan-Large: Описание Модели

Архитектура и Параметры

Hunyuan-Large представляет собой самую большую на сегодняшний день открытую MoE-модель, основанную на архитектуре Transformer, с общим количеством параметров в 389 миллиардов и 52 миллиардами активированных параметров. Модель способна обрабатывать до 256 тысяч токенов, что делает ее чрезвычайно мощной в обработке длинных контекстов.

Общее количество параметров: 389 миллиардов
Активированные параметры: 52 миллиарда
Количество слоев: 64
Головы внимания: 80
Ключ/значение голов: 8
Общие эксперты: 1
Специализированные эксперты: 16 (активируется 1)
Функция активации: SwiGLU
Размер словаря: 128 тысяч
Размер скрытого слоя: 6400

Ключевые Инновации

Высококачественные Синтетические Данные: Hunyuan-Large обучается на 7 триллионах токенов, включая почти 1.5 триллиона токенов высококачественных и разнообразных синтетических данных, что улучшает качество и разнообразие обучающих данных.
Улучшенная Структура Модели: Включает в себя:
- Сжатие кэша ключ-значение (KV): Уменьшает нагрузку на память и снижает затраты на вывод данных.
- Стратегия маршрутизации экспертов: Использует как общий эксперт, так и специализированные эксперты для динамического обучения.
- Специфическая для экспертов стратегия масштабирования скорости обучения: Различные эксперты получают разные скорости обучения для оптимизации процесса.
Исследования Законов Масштабирования MoE: Анализируются закономерности между размером модели, объемом обучающих данных и производительностью, предоставляя ценные рекомендации для будущего развития моделей.

Преимущества и Результаты

Hunyuan-Large демонстрирует превосходные результаты по сравнению с другими моделями аналогичного размера, включая LLama3.1-70B и показывает результаты, сопоставимые с моделью LLama3.1-405B, которая имеет значительно больше параметров. Модель превосходит в задачах понимания языка, логическому рассуждению, решению математических задач, кодированию и работе с длинными контекстами.

Открытый Исходный Код и Доступность

Код и контрольные точки Hunyuan-Large открыты для общественности, что способствует дальнейшим инновациям и применениям в сообществе LLM. Это подчеркивает стремление Tencent к открытому распространению технологий и стимулированию развития приложений.

Заключение

Hunyuan-Large представляет собой значительный шаг вперед в области MoE-моделей, предоставляя сообществу мощный инструмент для исследований и практического применения. С его помощью можно не только улучшить существующие приложения, но и создать новые, которые будут более эффективно взаимодействовать с пользователями, предоставляя им более точные и контекстно-зависимые ответы.

Статья на arxiv Оригинал pdf scaling transformer routing