Ай Дайджест - категория loss

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

2024-12-06performance predictions models

Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Модели диффузии были применены для завершения сцен 3D LiDAR благодаря их высокой стабильности обучения и качеству завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В этой статье предлагается новый метод дистилляции, адаптированный для моделей завершения сцен 3D LiDAR, названный ScoreLiDAR, который достигает эффективного и качественного завершения сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньше шагов после дистилляции. Для улучшения качества завершения мы также вводим новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены 3D LiDAR. Потеря содержит терм, ограничивающий целостную структуру сцены, и точечный терм, ограничивающий ключевые контрольные точки и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунд на кадр (>5 раз) на SemanticKITTI и достигает превосходной производительности по сравнению с современными моделями завершения сцен 3D LiDAR. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.

2024-12-05distillation models scene

Награды процесса без меток процесса: новые горизонты в обучении моделей вознаграждения

В отличие от моделей наград результатов (ORM), которые оценивают все ответы, модель награды процесса (PRM) оценивает аргументацию шаг за шагом, предоставляя более плотные и детализированные вознаграждения. Однако обучение PRM требует меток, аннотированных на каждом промежуточном этапе, что создает значительные проблемы как для ручного, так и для автоматического сбора данных. Эта статья нацелена на решение этой проблемы. Как теоретически, так и эмпирически мы показываем, что неявный PRM может быть получен без дополнительных затрат, просто обучая ORM на более дешевых метках уровня ответа. Единственное предположение заключается в параметризации результата награды как логарифма отношения правдоподобия моделей политики и эталона, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы реализуем наши неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наш неявный PRM превосходит сильную базовую линию на основе MCTS 'а-ля Math-Shepherd, используя менее 1/38 данных для обучения. Его производительность можно дополнительно улучшить с помощью голосования большинством. Мы также выяснили, что увеличение масштабов инструкций и ответов приносит выгоду нашему неявному PRM, при этом последнее дает больший прирост. В частности, мы обнаружили, что наш неявный PRM, когда он реализован с потерей кросс-энтропии (CE), более эффективен с точки зрения данных и может продолжать улучшать модели генерации, даже когда обучен только с одним ответом на инструкцию, что привносит крайний дефицит и дисбаланс данных. Кроме того, инструкции должны быть актуальны для последующих задач, в то время как разнообразие ответов не приносит выгоды. Удивительно, но обучение на дополнительных метках шагов Math-Shepherd не приносит дальнейших улучшений нашему неявному PRM, обученному только на данных результата. Мы надеемся, что наша работа побудит пересмотреть подходы к обучению PRM и поможет сделать обучение PRM более доступным.

2024-12-04reward model evaluation

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

2024-11-21distribution prediction scaling