Свежая выжимка ml и AI статей - каждый день
Квантование является одним из ключевых методов для эффективного развертывания больших языковых моделей (LLMs), позволяя уменьшить размер модели на диске, уменьшить потребление памяти и ускорить вывод за счет использования весов и активаций с более низкой точностью. С ростом размеров моделей, исследователи начали экспериментировать с квантованием, используя все более низкие битовые ширины, что вызвало значительный интерес к исследованиям в области квантования с низкой битностью.
Однако, наши наблюдения показывают, что квантование с низкой битностью работает лучше всего на моделях, которые либо имеют больший размер, либо обучены на меньшем количестве токенов. В противоположность этому, модели меньшего размера или те, которые обучены на большем количестве токенов, испытывают значительное ухудшение производительности при применении квантования с низкой битностью. В этой статье мы рассмотрим, почему так происходит, и как это влияет на будущее квантования языковых моделей.
Производительность LLM обычно улучшается по степенному закону с увеличением количества параметров, позволяя большим моделям лучше адаптироваться и обобщать на одном и том же наборе данных:
[ L(N) = aN^{\alpha} + \epsilon ]
где ( L(N) ) - это функция потерь, зависящая от ( N ) (количество параметров, не включая эмбеддинги), ( a ) - константа, ( \alpha ) - показатель масштабирования, а ( \epsilon ) - ошибка.
Большее количество токенов обучения также улучшает производительность по степенному закону, позволяя моделям более эффективно захватывать сложности языка:
[ L(D) = bD^{\beta} + \epsilon ]
где ( D ) - количество токенов обучения, ( b ) - константа, а ( \beta ) - показатель масштабирования для токенов.
При одновременном масштабировании числа параметров ( N ) и объема данных обучения ( D ), закон масштабирования может быть выражен как функция, учитывающая совместное влияние обоих факторов:
[ L(N,D) = [(N/c_N)^{\alpha_N} + (D/c_D)^{\alpha_D}]^{\alpha_D} ]
Этот закон масштабирования позволяет оценить производительность языковых моделей на невиданных ранее масштабах до проведения фактических тренировок.
Квантование-индуцированная деградация (QiD) определяется как разница в потерях до и после применения квантования:
[ \Delta_q Loss = Loss_q - Loss_{16-bit} ]
где ( Loss_q ) - это кросс-энтропийная потеря квантованной модели, а ( Loss_{16-bit} ) - потеря модели до квантования с использованием fp16 или bf16 весов.
В отличие от традиционных законов масштабирования, где количество токенов обучения ( D ) находится в знаменателе, мы предлагаем следующую зависимость между токенами обучения и QiD:
[ \Delta_q Loss(D) \approx b \cdot D^{\beta} ]
Это означает, что чем больше токенов обучения, тем значительнее становится QiD, как показано на наших наблюдениях.
Больший размер модели обычно приводит к меньшему QiD:
[ \Delta_q Loss(N) \approx aN^{\alpha} ]
где ( N ) - количество неэмбеддинговых параметров.
Битовая ширина, как фактор, не присутствует в традиционных законах масштабирования, но мы предлагаем модель, учитывающую битовую ширину:
[ \Delta_q Loss(P) \approx cP^{\gamma} ]
где ( P ) - битовая ширина.
С учетом всех трех факторов, мы предлагаем следующий объединенный закон масштабирования для квантования с низкой битностью:
[ \Delta_q Loss(N,D,P) = k \cdot D^{\beta} N^{\alpha} P^{\gamma} ]
где ( k ) - совместный коэффициент, а ( \alpha ), ( \beta ), ( \gamma ) - положительные показатели.
На основе выведенных законов масштабирования, мы подтверждаем, что квантование с низкой битностью действительно благоприятствует моделям с меньшим количеством токенов обучения или большим размером, то есть недообученным моделям. Полностью обученные модели испытывают значительное ухудшение производительности при применении квантования с низкой битностью.
Мы предлагаем новую перспективу, что QiD можно использовать для определения уровня обученности модели. Если модель после квантования с низкой битностью показывает QiD ≈ 0, это может указывать на то, что модель недообучена и не использовала высокую точность в полной мере.
Используя выведенные законы масштабирования, мы предсказываем, что квантование с низкой битностью для моделей, обученных на 100 триллионах токенов, может привести к серьезному ухудшению производительности, что ставит под сомнение практическую ценность квантования с низкой битностью в будущем.
Мы вывели законы масштабирования для квантования с низкой битностью, показав, что оно благоприятствует недообученным моделям. Мы предложили интуитивное объяснение этого феномена и новую перспективу использования QiD для определения уровня обученности модели. Более того, наши прогнозы указывают на потенциальные проблемы с квантованием с низкой битностью для будущих моделей, обученных на огромных объемах данных. Это вызывает необходимость учитывать уровень обученности модели при оценке исследований по квантованию с низкой битностью.