Ай Дайджест - категория adaptive

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

2024-11-21attention kernel precision

МАРС: Развязывание силы снижения дисперсии для обучения больших моделей

Обучение глубоких нейронных сетей, а в последнее время и крупных моделей, требует эффективных и масштабируемых оптимизаторов. Адаптивные алгоритмы градиентного спуска, такие как Adam, AdamW и их вариации, играют ключевую роль в этой задаче. Несмотря на разработку множества алгоритмов снижения дисперсии за последнее десятилетие, направленных на ускорение стохастической оптимизации как в выпуклых, так и в невыпуклых условиях, снижение дисперсии не получило широкого распространения при обучении глубоких нейронных сетей или крупных языковых моделей. В результате этот подход остается менее популярным в современном ИИ. В данной статье, чтобы раскрыть потенциал снижения дисперсии для эффективного обучения крупных моделей, мы предлагаем единую оптимизационную структуру MARS (Make vAriance Reduction Shine), которая объединяет методы предобусловленного градиента и снижение дисперсии с помощью техники масштабированного стохастического рекурсивного импульса. В рамках нашего подхода мы представляем три варианта MARS, которые используют обновления градиентов, предобусловленные на основе AdamW, Lion и Shampoo соответственно. Мы также проводим связь между нашими алгоритмами и существующими оптимизаторами. Экспериментальные результаты по обучению моделей GPT-2 показывают, что MARS значительно превосходит AdamW.

2024-11-18variance adaptive gradient

WEB RL: Обучение веб-агентов с использованием LLM через самоэволюционирующее онлайн-обучение с подкреплением

Крупные языковые модели (LLMs) показали выдающиеся возможности в качестве автономных агентов, особенно в задачах, связанных с вебом. Однако существующие веб-агенты на базе LLM сильно зависят от дорогих проприетарных API LLM, в то время как открытые LLM не обладают необходимыми способностями к принятию решений. В данной статье представляется WebRL, самоэволюционирующая онлайн-куррикулумная платформа обучения с подкреплением, разработанная для тренировки высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три ключевых проблемы в разработке веб-агентов на базе LLM, включая нехватку тренировочных задач, разреженные сигналы обратной связи и сдвиг распределения политик в онлайн-обучении. В частности, WebRL включает в себя 1) самоэволюционирующийся куррикулум, который генерирует новые задачи из неудачных попыток, 2) надежную модель вознаграждения, контролируемую результатами (ORM), и 3) адаптивные стратегии обучения с подкреплением для обеспечения постоянного прогресса. Мы применили WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в квалифицированных веб-агентов. На WebArena-Lite, WebRL повысил процент успешных выполнений задач для Llama-3.1-8B с 4.8% до 42.4%, а для GLM-4-9B - с 6.1% до 43%. Эти открытые модели значительно превосходят показатели GPT-4-Turbo (17.6%) и GPT-4o (13.9%) и превосходят предыдущих лидеров среди веб-агентов, обученных на открытых LLM (AutoWebGLM, 18.2%). Наши результаты демонстрируют эффективность WebRL в сближении открытых и проприетарных LLM-веб агентов, открывая путь к более доступным и мощным системам автономного взаимодействия с вебом.

2024-11-05adaptive agents feedback