Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Самопроверка длины: политика динамической длины для спекулятивного декодирования

Спекулятивное декодирование (SD) стало важной техникой для ускорения процесса вывода в больших языковых моделях (LLM). Эта методика использует небольшую и эффективную модель для предварительного создания последовательностей, в то время как более мощная экспертная модель проверяет эти черновики. Такой подход позволяет избежать автогрессивного генерации каждого токена через целевую LLM, что значительно повышает эффективность, сохраняя при этом качество выходных данных.

Однако большинство существующих методов SD работают с фиксированной длиной черновика, что не учитывает различия в сложности генерации токенов для различных задач. Это ограничение приводит к неэффективному использованию вычислительных ресурсов, особенно когда некоторые токены, такие как служебные слова, легко предсказать, тогда как другие, требующие более глубокого понимания или рассуждений, могут быть гораздо сложнее.

В данной статье мы представляем SVIP (Self-VerIfication length Policy) — динамическую политику длины черновика, осознающую сложность, которая адаптивно определяет длину генерируемых последовательностей в зависимости от энтропии распределения токенов. Мы показываем, что SVIP обеспечивает значительное ускорение времени вывода, достигая до 20% ускорения по сравнению с базовыми методами SD на SpecBench и до 60% на MT-Bench для генерации длинных последовательностей до 8K токенов.

Спекулятивное декодирование

Спекулятивное декодирование заключается в использовании двух моделей: большой целевой модели (p) и меньшей модели черновика (q). Процесс начинается с того, что модель черновика генерирует фиксированное количество токенов, которые затем проверяются целевой моделью. Каждый токен принимается с определенной вероятностью, и в случае отклонения генерируется корректирующий токен из остаточного распределения. Этот процесс продолжается до достижения максимальной длины последовательности.

Проблема фиксированной длины

Существующие методы SD, как правило, используют фиксированную длину черновика, что игнорирует различия в сложности токенов. Например, токены, требующие простого предсказания, могут быть приняты, в то время как более сложные запросы могут привести к отказу. Это приводит к неэффективному использованию ресурсов, когда модель черновика генерирует токены, которые не будут приняты, что увеличивает общее время вывода.

Метод SVIP

SVIP предлагает динамическое управление длиной черновика, позволяя системе адаптироваться к сложности текущего токена. Основная идея заключается в том, что вероятность принятия токена зависит от уверенности целевой модели, которая недоступна на этапе черновика. Вместо этого мы используем энтропию модели черновика для оценки этой вероятности.

Теоретическая основа

Мы выводим теоретическую нижнюю границу для вероятности принятия токена, основываясь на энтропии модели черновика. Это позволяет нам оценить, когда следует продолжить генерацию токенов, а когда — остановиться. Если вероятность принятия токена низка, процесс черновика прекращается, что позволяет избежать ненужных вычислений.

Эмпирическая оценка

На основе анализа распределений токенов для более чем 100 000 токенов мы показываем, что энтропия модели черновика может быть использована для оценки вероятности принятия токена. Это делает SVIP практичным для использования в реальных условиях, поскольку он не требует дополнительного обучения и может быть внедрен в существующие методы SD.

Эксперименты и результаты

Мы провели обширные эксперименты для оценки эффективности SVIP на нескольких моделях и задачах.

Настройки экспериментов

Эксперименты проводились на SpecBench и MT-Bench с использованием различных моделей, таких как Pythia, Qwen и LLaMA. Мы сравнили SVIP с двумя базовыми методами: фиксированной длиной черновика и эвристическим подходом, который изменяет длину черновика в зависимости от предыдущих результатов.

Результаты на SpecBench

Результаты показали, что SVIP обеспечивает в среднем 15-20% ускорение по сравнению с фиксированной длиной черновика и значительное улучшение по сравнению с эвристическим методом. Это достигается благодаря более высокому уровню принятия токенов и сокращению общей длины черновика.

Долгосрочная генерация

Мы также протестировали SVIP на задачах долгосрочной генерации, где контекст длиной до 8K токенов. В этих экспериментах SVIP показал значительно лучшее время вывода по сравнению с базовыми методами, что подтверждает его универсальность и эффективность.

Применение SVIP к другим методам

SVIP не ограничивается только стандартным спекулятивным декодированием. Мы применили его к современным методам, таким как GliDe и EAGLE-2, и подтвердили, что SVIP обеспечивает стабильные улучшения производительности без необходимости в дополнительном обучении.

Заключение

SVIP представляет собой гибкую и эффективную политику динамической длины черновика для спекулятивного декодирования. Основываясь на теоретической нижней границе вероятности принятия токена и эмпирических оценках, SVIP позволяет адаптивно управлять длиной черновика, что приводит к значительному ускорению времени вывода в задачах генерации текста. Дальнейшие исследования могут сосредоточиться на интеграции SVIP с другими подходами в области спекулятивного декодирования и его применении в более сложных сценариях.