BitNet a4.8: Введение в 4-битные активации для 1-битных LLM

В последние годы исследования в области 1-битных крупных языковых моделей (LLM) продемонстрировали значительные успехи в снижении затрат на инференцию при сохранении высокой производительности. Одной из таких моделей является BitNet b1.58, которая использует 1.58-битные веса для представления моделей. В этой статье мы рассмотрим новую модель — BitNet a4.8, которая вводит 4-битные активации для 1-битных LLM, тем самым предлагая новый подход к оптимизации вычислительных ресурсов и памяти.

Основные концепции BitNet a4.8

Гибридная стратегия квантования и разреживания

BitNet a4.8 использует гибридную стратегию квантования и разреживания для минимизации ошибок квантования, вызванных выбросами (outlier channels) в активациях. Вот как это работает:

4-битные активации: Для входов в слои внимания и полносвязные сети (FFN) применяется 4-битное квантование. Это позволяет уменьшить объем данных, необходимых для обработки, что ведет к уменьшению времени инференции.
Разреживание и 8-битное квантование: Для промежуточных состояний активаций используется разреживание, за которым следует 8-битное квантование. Это позволяет сохранить важную информацию, не теряя при этом в производительности.

Архитектура

Архитектура BitNet a4.8 включает в себя следующие ключевые элементы:

BitLinear: Замена линейных проекций в слоях внимания и FFN на BitLinear для обучения 1.58-битных весов с нуля.
Активации: Использование функции активации ReLU2 и GLU (Gated Linear Unit) для увеличения разреженности активаций, что снижает количество вычислений.
Внимание: Для выходных проекций слоев внимания применяется функция "sparsify-then-quantize", которая включает в себя маскирование и квантование.

Тренировка

Тренировка BitNet a4.8 происходит в два этапа:

Первый этап: Модель тренируется с 8-битными активациями и ReLU2 GLU.
Второй этап: Модель адаптируется к 4-битным активациям с использованием предложенной гибридной стратегии квантования и разреживания.

Эксперименты и результаты

Эксперименты показали, что BitNet a4.8 достигает производительности, сравнимой с BitNet b1.58, при тех же затратах на обучение, но с значительным увеличением эффективности инференции. Ключевые выводы:

Производительность: BitNet a4.8 показывает результаты, близкие к BitNet b1.58, на различных задачах, включая ARC-Easy, ARC-Challenge, Hellaswag и другие.
Скорость инференции: Использование 4-битных активаций позволяет ускорить процесс инференции благодаря возможности применения специализированных ядер INT4/FP4.
Разреженность: Модель активирует только 55% параметров, что значительно снижает требования к памяти и вычислительным ресурсам.
Поддержка 3-битного KV кэша: Это позволяет еще больше оптимизировать использование памяти при работе с длинными последовательностями.

Заключение

BitNet a4.8 представляет собой значительный шаг вперед в оптимизации LLM, предлагая уникальное сочетание 1-битных весов и 4-битных активаций. Используя гибридную стратегию квантования и разреживания, модель не только сохраняет высокую производительность, но и значительно снижает затраты на инференцию и память. Это делает BitNet a4.8 особенно привлекательной для развертывания крупных языковых моделей в условиях ограниченных ресурсов, открывая новые возможности для применения AI в различных областях.

Статья на arxiv Оригинал pdf cache inference efficiency