Адаптивное декодирование с помощью оптимизации латентных предпочтений

Большие языковые модели (LLM) сегодня являются мощными инструментами, способными выполнять широкий спектр задач, от точного решения математических проблем до креативного написания историй. Однако, даже после обучения, способ декодирования этих моделей значительно влияет на их производительность. Одним из ключевых параметров, который влияет на генерацию текста, является температура декодирования. Низкая температура способствует более точным и фактически правильным ответам, в то время как высокая температура поощряет креативность и разнообразие в ответах.

В текущих LLM, температура является важным параметром, который регулирует вероятность выбора следующего токена. Низкая температура делает распределение вероятностей более резким, что приводит к менее креативным, но более фактически точным ответам. Высокая температура, напротив, сглаживает распределение, что позволяет модели генерировать более творческие и оригинальные ответы.

Проблема заключается в том, что существующие подходы к декодированию часто используют фиксированную температуру для всех задач, что не всегда оптимально, особенно когда задачи требуют как точности, так и креативности. В этой статье мы рассмотрим метод, известный как Адаптивное декодирование (Adaptive Decoding), который позволяет модели динамически выбирать температуру декодирования в зависимости от контекста и задачи, используя Оптимизацию латентных предпочтений (Latent Preference Optimization, LPO).

Адаптивное декодирование

Адаптивное декодирование представляет собой новый подход к выбору температуры декодирования. Вместо использования фиксированной температуры для всех токенов или примеров, модель может динамически адаптировать температуру на основе входного контекста. Это достигается добавлением нового слоя, называемого A-DAPTIVE DECODER, который прикрепляется к последнему скрытому состоянию трансформерной архитектуры. Этот слой позволяет модели:

Примерный уровень: Выбирать одну температуру для всего ответа, основываясь на контексте запроса.
Токеновый уровень: Выбирать температуру для каждого генерируемого токена, что позволяет более тонко настроить процесс генерации.

Технология A-DAPTIVE DECODER

A-DAPTIVE DECODER работает следующим образом:

Входные данные: Принимает латентные представления последнего скрытого слоя трансформера.
Выходные данные: Выдает вероятностное распределение над возможными значениями температуры.
Выбор температуры: Модель может либо выбрать температуру с наивысшей вероятностью, либо сэмплировать температуру из этого распределения для генерации следующего токена.

Обучение A-DAPTIVE DECODER

Для обучения параметров A-DAPTIVE DECODER используется метод Latent Preference Optimization (LPO), который представляет собой обобщение Direct Preference Optimization (DPO), применяемое для обучения дискретных латентных переменных, таких как выбор температуры:

Генерация ответов: Модель генерирует несколько ответов на один и тот же запрос, используя различные температуры, выбранные A-DAPTIVE DECODER.
Оценка ответов: Ответы оцениваются с помощью модели вознаграждения или по точности ответов (в зависимости от задачи).
Создание пар предпочтений: Лучшие и худшие ответы по оценке формируют пары "выбранный" и "отвергнутый".
Оптимизация: Используя эти пары, LPO оптимизирует параметры A-DAPTIVE DECODER для выбора наиболее подходящих температур для декодирования.

Эксперименты и результаты

Уменьшение повторений N-gram

Первый эксперимент был направлен на снижение повторений в тексте, которые часто возникают при жадном декодировании (температура близка к 0). A-DAPTIVE DECODER на уровне токенов успешно снизил повторения на 42% по сравнению с жадным декодированием, выбирая более высокие температуры для избежания повторений.

UltraMathStories

Этот набор данных включает в себя три подзадачи:

Math (GSM8K): Для решения математических задач требуется низкая температура для точности.
Creative Writing (Stories): Здесь высокая температура способствует креативности и оригинальности.
General Instructions (UltraFeedback): Задачи, требующие баланса между точностью и креативностью.

Модель с A-DAPTIVE DECODER на уровне последовательностей показала превосходство над фиксированными температурами, адаптируясь к каждой подзадаче. Например, для математических задач она выбирала низкую температуру, а для творческого письма — высокую.

Constrained Creative Writing

Задача заключалась в написании креативной истории с ограничением, что каждая фраза должна начинаться с определенной подстроки. A-DAPTIVE DECODER на уровне токенов успешно адаптировал температуру, выбирая низкую температуру для токенов, отвечающих за соблюдение ограничения, и более высокую для остальных токенов, что позволило создавать более креативные и соответствующие ограничению истории.

Majority Voting

В этом эксперименте A-DAPTIVE DECODER на уровне токенов был использован для улучшения точности ответов через голосование большинства. Модель научилась выбирать разные температуры для различных частей рассуждений, что привело к улучшению точности по сравнению с использованием фиксированной температуры.

Заключение

Адаптивное декодирование с помощью оптимизации латентных предпочтений представляет собой значительный шаг вперед в управлении процессом генерации текста в LLM. Этот метод позволяет модели динамически адаптироваться к требованиям задачи, улучшая как точность, так и креативность ответов. A-DAPTIVE DECODER и LPO предоставляют инструменты для автоматизации выбора гиперпараметров декодирования, что делает использование LLM более эффективным и менее зависимым от ручной настройки.

Статья на arxiv Оригинал pdf inference temperature performance

Ай Дайджест

Адаптивное декодирование с помощью оптимизации латентных предпочтений