Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "merging"

Оптимизация слияния моделей: переработка для улучшения производительности

Слияние моделей показало большие перспективы в объединении экспертных моделей, но польза от слияния неясна при объединении "универсальных" моделей, обученных на многих задачах. Мы исследуем слияние в контексте больших моделей (примерно 100 миллиардов параметров), рециклируя контрольные точки, которые демонстрируют компромиссы между разными задачами. Такие контрольные точки часто создаются в процессе разработки передовой модели, и многие субоптимальные из них обычно отбрасываются. Учитывая пул контрольных точек моделей, полученных из разных тренировочных запусков (например, разные стадии, цели, гиперпараметры и смеси данных), которые естественным образом показывают компромиссы между различными языковыми способностями (например, выполнение инструкций против генерации кода), мы исследуем, может ли слияние переработать такие субоптимальные модели в парето-оптимальную. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, в результате чего получаются парето-оптимальные модели, которые превосходят как отдельные модели, так и базовые линии на основе слияния. Дальнейший анализ показывает, что хорошие слияния, как правило, включают почти все контрольные точки с ненулевыми весами, что указывает на то, что даже на вид плохие начальные контрольные точки могут способствовать хорошим финальным слияниям.