Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Активационная разреженность - это феномен, при котором значительное количество элементов в выходах активационных функций в нейронных сетях имеет нулевые или очень малые значения, что позволяет их исключить из дальнейших вычислений. Это свойство находит применение в различных аспектах работы с большими языковыми моделями (LLM), включая ускорение вычислений и повышение интерпретируемости моделей. В данной статье мы рассмотрим исследование, проведенное группой ученых из Тсинхуаского университета, которое посвящено количественному анализу факторов, влияющих на активационную разреженность в декодерных трансформерных моделях.

Основные концепции и метрики

Активационная разреженность

Активационная разреженность (activation sparsity) означает, что в слоях активации нейронной сети присутствуют элементы, которые вносят минимальный вклад в результат. Эти элементы могут быть обнулены или исключены из вычислений, что потенциально ускоряет работу модели и снижает потребление ресурсов.

Метрика PPL-p% разреженности

Исследователи предложили новую метрику для оценки активационной разреженности, названную PPL-p% разреженностью. Эта метрика:

Универсальна для различных архитектур моделей, поскольку не зависит от конкретной активационной функции.
Ориентирована на производительность, так как учитывает изменение перплексии (PPL) модели при отключении определенного процента нейронов.
Точно определяет слабо вносящие нейроны, что позволяет достичь оптимального баланса между разреженностью и производительностью.

Эксперименты и наблюдения

Влияние функции активации

Исследование показало, что:

ReLU и SiLU (Sigmoid Linear Unit) демонстрируют схожую производительность, но имеют противоположные тенденции в разреженности активации во время обучения.
С увеличением объема обучающих данных, активационная разреженность в моделях с ReLU увеличивается по логарифмическому закону, в то время как в моделях с SiLU она уменьшается.

Влияние соотношения ширины к глубине

При фиксированном количестве параметров, активационная разреженность линейно увеличивается с увеличением соотношения ширины к глубине (width-depth ratio) до определенного порогового значения. После этого порога разреженность стабилизируется.

Влияние масштаба параметров

Удивительно, но активационная разреженность слабо зависит от масштаба параметров модели. Это означает, что паттерны активации нейронов в LLM не чувствительны к увеличению количества параметров.

Значение и применение

Эти эмпирические законы активационной разреженности имеют важные последствия для разработки более эффективных и интерпретируемых LLM:

Выбор активационной функции: ReLU предпочтительнее для достижения большей разреженности без ущерба для производительности.
Архитектурный дизайн: Более глубокие архитектуры могут способствовать большей разреженности при фиксированном бюджете на вычисления.
Предсказание разреженности: Знание о том, как разреженность изменяется с количеством данных, позволяет предсказывать будущую разреженность модели на этапе обучения.

Заключение

Исследование активационной разреженности открывает новые пути для оптимизации больших языковых моделей, делая их более эффективными в использовании вычислительных ресурсов и более прозрачными для анализа. Применение предложенной метрики PPL-p% разреженности и понимание влияния различных факторов на разреженность помогут разработчикам и исследователям создавать модели, которые не только мощные, но и экономичные в плане вычислительных затрат.

Статья на arxiv Оригинал pdf llm activation scaling

Ай Дайджест