Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "temperature"

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.

Адаптивное декодирование с помощью оптимизации латентных предпочтений

Во время декодирования языковых моделей известно, что использование более высокой температуры выборки приводит к более креативным ответам, тогда как более низкие температуры дают более фактически точные результаты. Однако такие модели обычно применяются для общих инструкций, которые включают как креативные, так и фактические задачи, используя единую фиксированную температуру для всех примеров и токенов. В данной работе мы представляем Адаптивное Декодирование, слой, добавленный к модели для динамического выбора температуры выборки во время вывода, на уровне токена или примера, для оптимизации производительности. Для обучения его параметров мы вводим Оптимизацию Латентных Предпочтений (LPO), общий подход к обучению дискретных латентных переменных, таких как выбор температуры. Наш метод превосходит все фиксированные температуры декодирования на ряде задач, требующих различных температур, включая UltraFeedback, Креативное Писательство Историй и GSM8K.