Ай Дайджест - категория activations

BitNet a4.8: Введение в 4-битные активации для 1-битных LLM

Недавние исследования 1-битовых крупномасштабных языковых моделей (LLM), таких как BitNet b1.58, показывают перспективное направление для снижения стоимости вывода LLM, сохраняя при этом их производительность. В данной работе мы представляем BitNet a4.8, который позволяет использовать 4-битные активации для 1-битовых LLM. BitNet a4.8 использует гибридную стратегию квантования и разрежения для смягчения ошибок квантования, возникающих из-за выбросов в каналах. В частности, мы применяем 4-битные активации для входов в слои внимания и прямого распространения, в то время как промежуточные состояния разрежаются и затем подвергаются 8-битному квантованию. Обширные эксперименты показывают, что BitNet a4.8 достигает производительности, сравнимой с BitNet b1.58, при эквивалентных затратах на обучение, но при этом он быстрее работает на выводе, используя 4-битные (INT4/FP4) ядра. Кроме того, BitNet a4.8 активирует только 55% параметров и поддерживает 3-битный кэш KV, что дополнительно повышает эффективность развертывания и вывода крупномасштабных LLM.

2024-11-08activations inference efficiency