Xmodel-1.5: Развитие мультиязычного ИИ

В мире, где глобализация коммуникаций становится всё более значимой, потребность в продвинутых моделях обработки естественного языка (NLP) для преодоления языковых барьеров становится очевидной. Традиционные модели NLP часто сталкиваются с трудностями при работе с менее распространёнными языками, что ограничивает их эффективность в глобальных приложениях. В ответ на этот вызов лаборатория ИИ компании Xiaoduo Technology разработала Xmodel-1.5 — мультиязычную модель с 1 миллиардом параметров, которая демонстрирует выдающиеся результаты не только в широко распространённых языках, таких как китайский и английский, но и в таких языках, как тайский, арабский и французский.

Разработка Xmodel-1.5 была направлена на создание более инклюзивной системы ИИ, способной обслуживать широкий спектр лингвистических и культурных контекстов. Эта модель не только улучшает понимание и генерацию текста на различных языках, но и способствует лучшему межкультурному взаимопониманию в различных задачах обработки естественного языка. Кроме того, вклад в научное сообщество был сделан путем открытия кода и моделей на GitHub, а также предоставления тайского оценочного набора данных, созданного с участием студентов Чулалонгкорнского университета.

Обзор предыдущих работ

Мультиязычные модели крупных языковых моделей (LLM) привлекли значительное внимание в последние годы. Такие модели, как XLM-R, mT5 и PolyLM, заложили основу для развития мультиязычного ИИ. Например, XLM-R поддерживает более 100 языков и демонстрирует высокую эффективность в задачах понимания естественного языка. mT5, разработанный Google, показывает впечатляющие результаты в задачах понимания и генерации текста на более чем 100 языках. PolyLM от Alibaba DAMO Academy использует билингвальные данные и стратегию обучения по программе для улучшения производительности на языках с низким ресурсом.

Предобучение

Процесс предобучения Xmodel-1.5 включал в себя несколько ключевых этапов:

Сбор данных

Были использованы данные из различных источников, включая Multilang Wiki и CulturaX, чтобы охватить широкий спектр языков. Особое внимание уделялось увеличению представительства языков с низким ресурсом, таких как монгольский, бирманский, непальский, кхмерский, сербский и тамильский. Данные были обработаны для удаления дубликатов и улучшения качества.

Токенизация

Для Xmodel-1.5 был разработан уникальный токенизатор на основе униграммного подхода, который позволяет более гибко обрабатывать редкие и низкочастотные токены. Этот токенизатор был обучен на подмножестве данных, включающем 50% английского, 25% китайского, 10% специфических для отрасли данных и 15% языков с низким ресурсом.

Архитектура модели

Xmodel-1.5 использует архитектуру, основанную на трансформере, с несколькими улучшениями:

Rotary Positional Embedding (RoPE) для улучшения понимания длинных контекстов.
RMSNorm для стабилизации обучения.
SwiGLU вместо ReLU для оптимизации производительности.
Grouped-query attention (GQA) для эффективного обучения и вывода.

Обучение

Обучение модели проводилось на одном узле с использованием 7 из 8 доступных GPU H800, применяя Distributed Data Parallel (DDP) и FlashAttention-V2 для повышения эффективности. Модель была обучена на 2 триллионах токенов с использованием оптимизатора AdamW и стратегии изменения скорости обучения по косинусному графику.

Постобучение

Для улучшения работы на задачах, основанных на инструкциях, модель была дополнительно обучена на специализированном наборе данных, включающем задачи из области электронной коммерции. Это позволило модели достичь высокого уровня удовлетворенности пользователей при выполнении задач Retrieval-Augmented Generation (RAG).

Оценка

Оценка предобученной модели

Xmodel-1.5 сравнивалась с несколькими базовыми моделями, включая OPT, Pythia, TinyLLaMA, MobileLLaMA, H2O-danube, InternLM2 и Qwen2.5. Результаты показали, что Xmodel-1.5 превосходит многие из этих моделей в задачах на здравомыслие и мультиязычных способностях.

Мультиязычные способности

Модель была оценена на различных задачах, включая ARC, XCOPA, PIQA_AR, Belebele_tha_thai, mMMLU и mHellaswag, показав значительные улучшения по сравнению с предыдущими моделями.

Оценка модели инструкций

Для оценки инструкционной модели использовались стандартные бенчмарки, такие как ifeval и MT-Bench, а также специфический для тайского языка набор данных, созданный в сотрудничестве с Чулалонгкорнским университетом. Эти оценки подтвердили эффективность модели в различных языковых и культурных контекстах.

Заключение

Xmodel-1.5 представляет собой значительный шаг вперед в области обработки естественного языка, демонстрируя высокую производительность в мультиязычных задачах и способствуя улучшению межкультурного взаимопонимания. Несмотря на многообещающие результаты, есть ещё пространство для улучшения, особенно в обработке гендерных различий и временных выражений в тайском языке. Мы надеемся, что эта работа будет способствовать дальнейшему развитию мультиязычного ИИ и улучшению инструментов для глобальной коммуникации и исследований.

Статья на arxiv Оригинал pdf model tokens evaluation

Ай Дайджест