Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Квантование является одним из ключевых методов для эффективного развертывания больших языковых моделей (LLMs), позволяя уменьшить размер модели на диске, уменьшить потребление памяти и ускорить вывод за счет использования весов и активаций с более низкой точностью. С ростом размеров моделей, исследователи начали экспериментировать с квантованием, используя все более низкие битовые ширины, что вызвало значительный интерес к исследованиям в области квантования с низкой битностью.

Однако, наши наблюдения показывают, что квантование с низкой битностью работает лучше всего на моделях, которые либо имеют больший размер, либо обучены на меньшем количестве токенов. В противоположность этому, модели меньшего размера или те, которые обучены на большем количестве токенов, испытывают значительное ухудшение производительности при применении квантования с низкой битностью. В этой статье мы рассмотрим, почему так происходит, и как это влияет на будущее квантования языковых моделей.

Основы: Законы масштабирования для больших языковых моделей

Количество параметров

Производительность LLM обычно улучшается по степенному закону с увеличением количества параметров, позволяя большим моделям лучше адаптироваться и обобщать на одном и том же наборе данных:

[ L(N) = aN^{\alpha} + \epsilon ]

где ( L(N) ) - это функция потерь, зависящая от ( N ) (количество параметров, не включая эмбеддинги), ( a ) - константа, ( \alpha ) - показатель масштабирования, а ( \epsilon ) - ошибка.

Количество токенов обучения

Большее количество токенов обучения также улучшает производительность по степенному закону, позволяя моделям более эффективно захватывать сложности языка:

[ L(D) = bD^{\beta} + \epsilon ]

где ( D ) - количество токенов обучения, ( b ) - константа, а ( \beta ) - показатель масштабирования для токенов.

Комбинированный эффект

При одновременном масштабировании числа параметров ( N ) и объема данных обучения ( D ), закон масштабирования может быть выражен как функция, учитывающая совместное влияние обоих факторов:

[ L(N,D) = [(N/c_N)^{\alpha_N} + (D/c_D)^{\alpha_D}]^{\alpha_D} ]

Этот закон масштабирования позволяет оценить производительность языковых моделей на невиданных ранее масштабах до проведения фактических тренировок.

Законы масштабирования для квантования с низкой битностью

Определение квантования-индуцированной деградации (QiD)

Квантование-индуцированная деградация (QiD) определяется как разница в потерях до и после применения квантования:

[ \Delta_q Loss = Loss_q - Loss_{16-bit} ]

где ( Loss_q ) - это кросс-энтропийная потеря квантованной модели, а ( Loss_{16-bit} ) - потеря модели до квантования с использованием fp16 или bf16 весов.

Влияние количества токенов обучения

В отличие от традиционных законов масштабирования, где количество токенов обучения ( D ) находится в знаменателе, мы предлагаем следующую зависимость между токенами обучения и QiD:

[ \Delta_q Loss(D) \approx b \cdot D^{\beta} ]

Это означает, что чем больше токенов обучения, тем значительнее становится QiD, как показано на наших наблюдениях.

Влияние размера модели

Больший размер модели обычно приводит к меньшему QiD:

[ \Delta_q Loss(N) \approx aN^{\alpha} ]

где ( N ) - количество неэмбеддинговых параметров.

Влияние битовой ширины

Битовая ширина, как фактор, не присутствует в традиционных законах масштабирования, но мы предлагаем модель, учитывающую битовую ширину:

[ \Delta_q Loss(P) \approx cP^{\gamma} ]

где ( P ) - битовая ширина.

Объединенный закон масштабирования

С учетом всех трех факторов, мы предлагаем следующий объединенный закон масштабирования для квантования с низкой битностью:

[ \Delta_q Loss(N,D,P) = k \cdot D^{\beta} N^{\alpha} P^{\gamma} ]

где ( k ) - совместный коэффициент, а ( \alpha ), ( \beta ), ( \gamma ) - положительные показатели.

Обсуждение: Квантование с низкой битностью благоприятствует недообученным моделям

Интуиция

На основе выведенных законов масштабирования, мы подтверждаем, что квантование с низкой битностью действительно благоприятствует моделям с меньшим количеством токенов обучения или большим размером, то есть недообученным моделям. Полностью обученные модели испытывают значительное ухудшение производительности при применении квантования с низкой битностью.

QiD как сигнал уровня обучения модели

Мы предлагаем новую перспективу, что QiD можно использовать для определения уровня обученности модели. Если модель после квантования с низкой битностью показывает QiD ≈ 0, это может указывать на то, что модель недообучена и не использовала высокую точность в полной мере.

Предсказание QiD при масштабировании до 100 триллионов токенов обучения

Используя выведенные законы масштабирования, мы предсказываем, что квантование с низкой битностью для моделей, обученных на 100 триллионах токенов, может привести к серьезному ухудшению производительности, что ставит под сомнение практическую ценность квантования с низкой битностью в будущем.

Заключение

Мы вывели законы масштабирования для квантования с низкой битностью, показав, что оно благоприятствует недообученным моделям. Мы предложили интуитивное объяснение этого феномена и новую перспективу использования QiD для определения уровня обученности модели. Более того, наши прогнозы указывают на потенциальные проблемы с квантованием с низкой битностью для будущих моделей, обученных на огромных объемах данных. Это вызывает необходимость учитывать уровень обученности модели при оценке исследований по квантованию с низкой битностью.

Статья на arxiv Оригинал pdf performance prediction models

Ай Дайджест