Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Языковые модели (LLM) в последние годы достигли значительных успехов в обработке естественного языка, демонстрируя поразительные способности в различных задачах, от генерации кода до решения математических задач и сложных проблем. Эти достижения во многом обусловлены утонченными механизмами генерации текста, которые лежат в основе их универсальности.

Одним из ключевых элементов в процессе генерации текста является выбор токенов, который определяет качество выходных данных модели. Хотя стохастические методы сэмплинга предлагают потенциальное преимущество в виде разнообразия выходов за счет множественных попыток, их эффективность в задачах, требующих глубокого рассуждения, остается под вопросом. Традиционно считается, что детерминированные методы, такие как жадное декодирование, часто превосходят стохастические подходы в задачах, требующих точного рассуждения.

В этом контексте мы представляем новый метод сэмплинга, называемый Top-nσ, который предлагает уникальный подход к фильтрации токенов, основанный на статистическом анализе распределения логитов до применения функции softmax. Этот метод обещает не только улучшить качество генерации, но и обеспечить стабильность и эффективность в различных условиях, включая высокие температуры сэмплинга.

Основные концепции Top-nσ

Распределение логитов

Рассматривая распределение логитов, мы обнаруживаем, что они часто следуют определенному статистическому распределению, которое можно разделить на два региона: шумовой и информативный.

Шумовой регион: большинство токенов демонстрируют логиты, распределенные по гауссовому закону, что традиционно считается шумом в предыдущих исследованиях. Этот регион характеризуется низкой значимостью для генерации текста.
Информативный регион: здесь находятся токены с высокими логитами, которые несут в себе основную информацию для генерации текста. Этот регион отличается от шумового и требует особого внимания при сэмплинге.

Метод Top-nσ

Top-nσ предлагает новый подход к сэмплингу, который не требует сортировки логитов или дополнительных преобразований softmax, что делает его вычислительно эффективным. Метод работает следующим образом:

Вычисление логитов: модель вычисляет логиты для каждого токена.
Масштабирование логитов: логиты масштабируются по температуре.
Определение порога: используя стандартное отклонение логитов (σ), определяется порог, который отделяет информативные токены от шумовых.
Применение маски: токены с логитами ниже порога отбрасываются, остальные токены используются для сэмплинга.

### Алгоритм Top-nσ

```python
def top_nσ_sampling(x, T, n):
    # Вычисление логитов
    logits = LLM(x)
    # Масштабирование логитов по температуре
    scaled_logits = logits / T
    # Вычисление максимального логита и стандартного отклонения
    M = max(scaled_logits)
    σ = std(scaled_logits)
    # Создание маски
    mask = [1 if l >= M - n*σ else 0 for l in scaled_logits]
    # Применение маски
    masked_logits = [l if m == 1 else -∞ for l, m in zip(scaled_logits, mask)]
    # Преобразование в вероятности
    probs = softmax(masked_logits)
    # Сэмплирование токена
    token = sample_from_distribution(probs)
    return token

Теоретический анализ

Мы предоставляем теоретический анализ метода Top-nσ, который включает:

Масса ядра: анализируется вероятностная масса выбранных токенов, что дает понимание, как метод фильтрует шумовые токены.
Инвариантность температуры: доказывается, что набор кандидатов на сэмплирование остается неизменным независимо от значения температуры, что обеспечивает стабильность метода.

Экспериментальные результаты

Эксперименты проводились на четырех наборах данных, ориентированных на рассуждение, таких как AQuA, MATH, GSM8K и GPQA. Результаты показали, что Top-nσ не только превосходит существующие методы сэмплинга, но и обходит жадное декодирование, сохраняя при этом стабильность производительности даже при высоких температурах.

Сравнение с базовыми методами: Top-nσ демонстрирует лучшие или близкие к лучшим результаты по метрике точного совпадения (Exact Match, EM) на всех наборах данных.
Многократное сэмплирование: при использовании метода повторного сэмплирования (Maj@N), Top-nσ также показывает превосходные результаты, подтверждая его способность к эффективному исследованию пространства решений.

Заключение

Top-nσ представляет собой новый подход к сэмплингу токенов в языковых моделях, который сочетает в себе простоту, эффективность и стабильность. Этот метод не только улучшает качество генерации текста, но и предлагает новые возможности для дальнейшего развития языковых моделей, включая улучшение архитектуры моделей и процедур обучения.

В будущем исследования могут быть направлены на использование статистических свойств логитов в процессе обучения, что может привести к созданию более эффективных и точных языковых моделей.

Статья на arxiv Оригинал pdf performance filtering threshold