Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "lyapunov"

Осторожные оптимизаторы: Улучшение обучения одной строкой кода

AdamW долгое время был стандартным оптимизатором для предобучения трансформеров. Многие годы наше сообщество искало более быстрые и стабильные оптимизаторы, при этом стремясь к исключительно положительным результатам. В этой работе мы предлагаем однострочное изменение в Pytorch для любого оптимизатора на основе импульса, который мы переименовали в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонову функцию Adam и не нарушает гарантии сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое новое семейство оптимизаторов. Среди них мы выбрали самый простой для эмпирических экспериментов, показав ускорение предобучения Llama и MAE до 1,47 раза. Код доступен по адресу https://github.com/kyleliang919/C-Optim.