Свежая выжимка ml и AI статей - каждый день
В последние годы крупные языковые модели (LLM) значительно продвинули сферу искусственного интеллекта, демонстрируя свою эффективность в различных областях, таких как обработка естественного языка (NLP), компьютерное зрение (CV), речевые технологии и научные исследования. С появлением моделей вроде ChatGPT от OpenAI в 2022 году, мы стали свидетелями взрывного роста мощных LLM, которые открывают новые способы сбора и обработки информации, оказывая значительное влияние на повседневную жизнь людей.
С ростом спроса на более сложные системы искусственного интеллекта, исследователи исследуют новые подходы для расширения возможностей моделей. Одним из таких подходов является модель с смесью экспертов (MoE), которая объединяет несколько специализированных подмоделей для достижения высокой производительности в различных задачах с динамически активируемыми экспертами. Этот метод позволяет более эффективно проводить обучение и вывод данных.
Тенденция к созданию и открытому распространению MoE-структурированных LLM наблюдается все чаще, что способствует развитию сообщества LLM. Компания Tencent также внесла свой вклад, используя архитектуру MoE для своего AI-чатбота Yuanbao, который начал применять эту технологию с февраля 2024 года. Благодаря своим возможностям в чтении, письме и поиске, модель Hunyuan и чатбот Yuanbao помогают пользователям работать эффективнее и наслаждаться более насыщенной жизнью.
Hunyuan-Large представляет собой самую большую на сегодняшний день открытую MoE-модель, основанную на архитектуре Transformer, с общим количеством параметров в 389 миллиардов и 52 миллиардами активированных параметров. Модель способна обрабатывать до 256 тысяч токенов, что делает ее чрезвычайно мощной в обработке длинных контекстов.
Высококачественные Синтетические Данные: Hunyuan-Large обучается на 7 триллионах токенов, включая почти 1.5 триллиона токенов высококачественных и разнообразных синтетических данных, что улучшает качество и разнообразие обучающих данных.
Улучшенная Структура Модели: Включает в себя:
Исследования Законов Масштабирования MoE: Анализируются закономерности между размером модели, объемом обучающих данных и производительностью, предоставляя ценные рекомендации для будущего развития моделей.
Hunyuan-Large демонстрирует превосходные результаты по сравнению с другими моделями аналогичного размера, включая LLama3.1-70B и показывает результаты, сопоставимые с моделью LLama3.1-405B, которая имеет значительно больше параметров. Модель превосходит в задачах понимания языка, логическому рассуждению, решению математических задач, кодированию и работе с длинными контекстами.
Код и контрольные точки Hunyuan-Large открыты для общественности, что способствует дальнейшим инновациям и применениям в сообществе LLM. Это подчеркивает стремление Tencent к открытому распространению технологий и стимулированию развития приложений.
Hunyuan-Large представляет собой значительный шаг вперед в области MoE-моделей, предоставляя сообществу мощный инструмент для исследований и практического применения. С его помощью можно не только улучшить существующие приложения, но и создать новые, которые будут более эффективно взаимодействовать с пользователями, предоставляя им более точные и контекстно-зависимые ответы.