Свежая выжимка ml и AI статей - каждый день
Большие языковые модели (LLM) сегодня являются мощными инструментами, способными выполнять широкий спектр задач, от точного решения математических проблем до креативного написания историй. Однако, даже после обучения, способ декодирования этих моделей значительно влияет на их производительность. Одним из ключевых параметров, который влияет на генерацию текста, является температура декодирования. Низкая температура способствует более точным и фактически правильным ответам, в то время как высокая температура поощряет креативность и разнообразие в ответах.
В текущих LLM, температура является важным параметром, который регулирует вероятность выбора следующего токена. Низкая температура делает распределение вероятностей более резким, что приводит к менее креативным, но более фактически точным ответам. Высокая температура, напротив, сглаживает распределение, что позволяет модели генерировать более творческие и оригинальные ответы.
Проблема заключается в том, что существующие подходы к декодированию часто используют фиксированную температуру для всех задач, что не всегда оптимально, особенно когда задачи требуют как точности, так и креативности. В этой статье мы рассмотрим метод, известный как Адаптивное декодирование (Adaptive Decoding), который позволяет модели динамически выбирать температуру декодирования в зависимости от контекста и задачи, используя Оптимизацию латентных предпочтений (Latent Preference Optimization, LPO).
Адаптивное декодирование представляет собой новый подход к выбору температуры декодирования. Вместо использования фиксированной температуры для всех токенов или примеров, модель может динамически адаптировать температуру на основе входного контекста. Это достигается добавлением нового слоя, называемого A-DAPTIVE DECODER, который прикрепляется к последнему скрытому состоянию трансформерной архитектуры. Этот слой позволяет модели:
A-DAPTIVE DECODER работает следующим образом:
Для обучения параметров A-DAPTIVE DECODER используется метод Latent Preference Optimization (LPO), который представляет собой обобщение Direct Preference Optimization (DPO), применяемое для обучения дискретных латентных переменных, таких как выбор температуры:
Первый эксперимент был направлен на снижение повторений в тексте, которые часто возникают при жадном декодировании (температура близка к 0). A-DAPTIVE DECODER на уровне токенов успешно снизил повторения на 42% по сравнению с жадным декодированием, выбирая более высокие температуры для избежания повторений.
Этот набор данных включает в себя три подзадачи:
Модель с A-DAPTIVE DECODER на уровне последовательностей показала превосходство над фиксированными температурами, адаптируясь к каждой подзадаче. Например, для математических задач она выбирала низкую температуру, а для творческого письма — высокую.
Задача заключалась в написании креативной истории с ограничением, что каждая фраза должна начинаться с определенной подстроки. A-DAPTIVE DECODER на уровне токенов успешно адаптировал температуру, выбирая низкую температуру для токенов, отвечающих за соблюдение ограничения, и более высокую для остальных токенов, что позволило создавать более креативные и соответствующие ограничению истории.
В этом эксперименте A-DAPTIVE DECODER на уровне токенов был использован для улучшения точности ответов через голосование большинства. Модель научилась выбирать разные температуры для различных частей рассуждений, что привело к улучшению точности по сравнению с использованием фиксированной температуры.
Адаптивное декодирование с помощью оптимизации латентных предпочтений представляет собой значительный шаг вперед в управлении процессом генерации текста в LLM. Этот метод позволяет модели динамически адаптироваться к требованиям задачи, улучшая как точность, так и креативность ответов. A-DAPTIVE DECODER и LPO предоставляют инструменты для автоматизации выбора гиперпараметров декодирования, что делает использование LLM более эффективным и менее зависимым от ручной настройки.