LLäMmlein: Создание и Оценка Немецких Языковых Моделей

В последние годы крупные языковые модели (LLM) достигли значительных успехов, особенно в англоязычном сегменте. Однако, несмотря на эти достижения, развитие аналогичных моделей для других языков, включая немецкий, отстаёт. Многие современные LLM либо обучены на английском с последующей настройкой на немецкий, либо включают немецкий язык в качестве одного из многих языков в многоязычных моделях, что часто приводит к снижению качества для немецкого языка. В ответ на эту проблему, исследователи из Университета Вюрцбурга разработали две исключительно немецкие декодерные модели, LLäMmlein 120M и LLäMmlein 1B, обученные с нуля на немецком корпусе данных.

Методология

Подготовка Датасета

Исследование началось с фильтрации и предобработки большого датасета RedPajama V2, чтобы извлечь исключительно высококачественные немецкие тексты. Этот процесс включал в себя:

Анализ датасета: Оценка распределения токенов, доменов и источников данных для понимания структуры и качества немецкой части датасета.
Предобработка: Удаление шаблонов веб-сайтов, дубликатов и некачественных текстов с помощью различных техник, включая параграфный уровень дедупликации и фильтрацию по соотношению токенов к словам.

Обучение Токенизатора

Для обеспечения наилучшей адаптации к немецкому языку был обучен новый токенизатор на основе алгоритма Byte-Pair Encoding (BPE) с размером словаря в 32,000 токенов. Этот токенизатор был сравнен с существующими немецкими токенизаторами, показав преимущества в эффективности токенизации.

Обучение Моделей

Модели LLäMmlein были обучены с нуля, используя следующие параметры:

LLäMmlein 120M: Обучение на данных только из "head" части предобработанного датасета с использованием 32 графических процессоров (GPU) L40.
LLäMmlein 1B: Обучение на полном наборе данных "head" и "middle" с использованием 64 графических процессоров (GPU) A100.

Оценка Моделей

Оценка моделей проводилась на различных задачах, включая:

SuperGLEBer: Набор задач для оценки понимания немецкого языка.
lm-evaluation-harness-de: Переведенные на немецкий язык задачи для оценки способностей модели в контексте генерации текста.

Результаты

LLäMmlein 120M

Эта модель показала конкурентоспособные результаты по сравнению с другими моделями аналогичного размера, особенно в задачах классификации. Однако, она уступала BERT-моделям в задачах, требующих понимания последовательности и сходства предложений, что объясняется ограничениями архитектуры декодера.

LLäMmlein 1B

Большая модель продемонстрировала значительные улучшения по сравнению с 120M версией, особенно в задачах, требующих более глубокого понимания контекста и общего знания. Она превзошла многие модели, включая Llama 3.2 1B, в различных задачах, подчеркивая преимущества монолингвального подхода.

Заключение

Проект LLäMmlein демонстрирует, что создание специализированных языковых моделей для немецкого языка может значительно улучшить качество обработки и понимания текста на этом языке. Модели, обученные с нуля на немецком корпусе, показывают, что спецификация языка может привести к более точным и эффективным результатам, чем многоязычные или адаптированные модели. Это исследование открывает путь для дальнейших исследований и разработок в области немецких LLM, подчеркивая важность создания и поддержки языковых моделей для языков, отличных от английского.

Статья на arxiv Оригинал pdf checkpoints evaluation nlp

Ай Дайджест