Свежая выжимка ml и AI статей - каждый день
В последние годы крупные языковые модели (LLM) достигли значительных успехов, особенно в англоязычном сегменте. Однако, несмотря на эти достижения, развитие аналогичных моделей для других языков, включая немецкий, отстаёт. Многие современные LLM либо обучены на английском с последующей настройкой на немецкий, либо включают немецкий язык в качестве одного из многих языков в многоязычных моделях, что часто приводит к снижению качества для немецкого языка. В ответ на эту проблему, исследователи из Университета Вюрцбурга разработали две исключительно немецкие декодерные модели, LLäMmlein 120M и LLäMmlein 1B, обученные с нуля на немецком корпусе данных.
Исследование началось с фильтрации и предобработки большого датасета RedPajama V2, чтобы извлечь исключительно высококачественные немецкие тексты. Этот процесс включал в себя:
Для обеспечения наилучшей адаптации к немецкому языку был обучен новый токенизатор на основе алгоритма Byte-Pair Encoding (BPE) с размером словаря в 32,000 токенов. Этот токенизатор был сравнен с существующими немецкими токенизаторами, показав преимущества в эффективности токенизации.
Модели LLäMmlein были обучены с нуля, используя следующие параметры:
Оценка моделей проводилась на различных задачах, включая:
Эта модель показала конкурентоспособные результаты по сравнению с другими моделями аналогичного размера, особенно в задачах классификации. Однако, она уступала BERT-моделям в задачах, требующих понимания последовательности и сходства предложений, что объясняется ограничениями архитектуры декодера.
Большая модель продемонстрировала значительные улучшения по сравнению с 120M версией, особенно в задачах, требующих более глубокого понимания контекста и общего знания. Она превзошла многие модели, включая Llama 3.2 1B, в различных задачах, подчеркивая преимущества монолингвального подхода.
Проект LLäMmlein демонстрирует, что создание специализированных языковых моделей для немецкого языка может значительно улучшить качество обработки и понимания текста на этом языке. Модели, обученные с нуля на немецком корпусе, показывают, что спецификация языка может привести к более точным и эффективным результатам, чем многоязычные или адаптированные модели. Это исследование открывает путь для дальнейших исследований и разработок в области немецких LLM, подчеркивая важность создания и поддержки языковых моделей для языков, отличных от английского.