LLäMmlein: Создание и Оценка Немецких Языковых Моделей
Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.