Ай Дайджест - категория routing

Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В данной статье мы представляем модель Hunyuan-Large, которая на данный момент является крупнейшей открытой моделью, основанной на Transformer, с использованием технологии смешения экспертов. Она включает в себя 389 миллиардов параметров и 52 миллиарда параметров активации, способную обрабатывать до 256 тысяч токенов. Мы провели тщательную оценку превосходной производительности Hunyuan-Large по различным тестам, включая понимание и генерацию языка, логическое рассуждение, решение математических задач, программирование, задачи с длинным контекстом и агрегированные задачи, где она превосходит модель LLama3.1-70B и показывает сопоставимую производительность с значительно большей моделью LLama3.1-405B. Ключевые особенности Hunyuan-Large включают использование больших объемов синтетических данных, превышающих данные в предыдущих исследованиях, стратегию маршрутизации смешанных экспертов, технику сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для экспертов. Кроме того, мы исследовали законы масштабирования и графики скорости обучения для моделей со смешением экспертов, предоставляя ценные инсайты и руководства для будущего развития и оптимизации моделей. Код и контрольные точки модели Hunyuan-Large выпущены для содействия будущим инновациям и применениям. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large

2024-11-05transformer learning routing