Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "logits"

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.

Эффективное использование памяти при обучении больших языковых моделей

По мере того как языковые модели становятся всё больше, растут и их словари. Это привело к непропорциональному увеличению объема памяти, используемого LLMs во время обучения, особенно в одном слое: при вычислении кросс-энтропии в функции потерь. Кросс-энтропия создает матрицу логитов с элементами для каждой пары входных токенов и элементов словаря и, для небольших моделей, потребляет на порядок больше памяти, чем остальная часть LLM вместе взятая. Мы предлагаем метод Cut Cross-Entropy (CCE), который вычисляет потери кросс-энтропии без материализации логитов для всех токенов в глобальной памяти. Вместо этого, CCE вычисляет логит только для правильного токена и оценивает log-sum-exp по всем логитам на лету. Мы реализовали специальное ядро, которое выполняет матричные умножения и редукцию log-sum-exp по словарю во флэш-памяти, делая потребление глобальной памяти для вычислений кросс-энтропии незначительным. Это имеет драматический эффект. Например, в случае модели Gemma 2 (2B), CCE снижает объем памяти, необходимый для вычисления потерь, с 24 ГБ до 1 МБ, а общее потребление памяти при обучении головы классификатора - с 28 ГБ до 1 ГБ. Для улучшения пропускной способности CCE мы используем врожденную разреженность softmax и предлагаем пропускать элементы вычисления градиента, которые имеют пренебрежимо малый вклад в градиент (то есть ниже численной точности). Эксперименты показывают, что драматическое сокращение потребления памяти достигается без ущерба для скорости обучения или сходимости.