Ай Дайджест - категория checkpoints

Оптимизация слияния моделей: переработка для улучшения производительности

Слияние моделей показало большие перспективы в объединении экспертных моделей, но польза от слияния неясна при объединении "универсальных" моделей, обученных на многих задачах. Мы исследуем слияние в контексте больших моделей (примерно 100 миллиардов параметров), рециклируя контрольные точки, которые демонстрируют компромиссы между разными задачами. Такие контрольные точки часто создаются в процессе разработки передовой модели, и многие субоптимальные из них обычно отбрасываются. Учитывая пул контрольных точек моделей, полученных из разных тренировочных запусков (например, разные стадии, цели, гиперпараметры и смеси данных), которые естественным образом показывают компромиссы между различными языковыми способностями (например, выполнение инструкций против генерации кода), мы исследуем, может ли слияние переработать такие субоптимальные модели в парето-оптимальную. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, в результате чего получаются парето-оптимальные модели, которые превосходят как отдельные модели, так и базовые линии на основе слияния. Дальнейший анализ показывает, что хорошие слияния, как правило, включают почти все контрольные точки с ненулевыми весами, что указывает на то, что даже на вид плохие начальные контрольные точки могут способствовать хорошим финальным слияниям.

2024-12-10pareto optimization merging

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

2024-11-19tokenizer evaluation nlp