Награды процесса без меток процесса: новые горизонты в обучении моделей вознаграждения

Развитие больших языковых моделей (LLM) значительно продвинулось благодаря обучению на высококачественных размеченных данных. В этом контексте модели вознаграждения (ORM) и модели вознаграждения процесса (PRM) играют ключевую роль в задачах, требующих сложного рассуждения. В отличие от ORM, которые оценивают полные ответы, PRM предоставляет более детализированные вознаграждения, оценивая каждую промежуточную стадию рассуждения. Однако, обучение PRM требует размеченных данных на каждом этапе, что создает значительные проблемы для сбора данных как вручную, так и автоматически.

В данной статье мы рассмотрим подход, позволяющий получить PRM без необходимости в метках процесса благодаря использованию ORM и простому параметризированию вознаграждений. Мы представим теоретические и эмпирические результаты, подтверждающие эффективность данного подхода, а также его применение на примере решения математических задач.

Модели вознаграждения: ORM против PRM

Основные различия

ORM присваивает разреженные вознаграждения полному ответу, и обратная связь предоставляется только после генерации последнего токена. В отличие от этого, PRM оценивает качество каждого промежуточного шага и может предоставлять вознаграждение после завершения каждого из них. Это позволяет PRM обеспечивать более плотные и детализированные вознаграждения, что, в свою очередь, приводит к более стабильному и эффективному обучению с подкреплением и лучшему ранжированию ответов.

Проблемы обучения PRM

Несмотря на свою эффективность, обучение PRM значительно сложнее, чем обучение ORM, из-за необходимости в разметке данных на каждом промежуточном этапе. Обычно для автоматической разметки шагов используется метод Монте-Карло (MCTS), который требует значительных вычислительных ресурсов и может приводить к шумной разметке. Это создает дополнительные затраты на сбор данных и ограничивает масштабируемость PRM.

Новый подход: Имплицитные PRM

Параметризация вознаграждений

В данной работе мы предлагаем новый подход, который позволяет извлечь PRM из ORM без дополнительных затрат. Мы предполагаем, что можно параметризовать вознаграждение как логарифм отношения вероятностей двух моделей: политики и референсной модели. Это позволяет автоматически обучать PRM в процессе обучения ORM, что значительно упрощает задачу разметки данных.

Формально, мы определяем вознаграждение следующим образом:

[ r_\theta(y) = \beta \log \frac{\pi_\theta(y)}{\pi_{ref}(y)} ]

где ( \pi_\theta ) — это модель политики, а ( \pi_{ref} ) — референсная модель. Это позволяет PRM эффективно обучаться на данных уровня ответов, не требуя меток на каждом шаге.

Эмпирические результаты

В экспериментах мы обучили имплицитные PRM на наборе данных, состоящем из 33 тысяч математических инструкций и восьми решений для каждой из них. Мы оценили эффективность различных вариантов имплицитных PRM, используя метод best-of-N на наборе данных MATH.

Результаты показали, что имплицитные PRM превосходят конкурентные базовые линии, включая переосмысленные версии Math-Shepherd и AutoPSV, при этом требуя значительно меньших затрат на обучение. Например, использование CE (кросс-энтропии) в качестве цели обучения показало наилучшие результаты, что делает этот подход особенно привлекательным в условиях нехватки парных данных.

Анализ факторов, влияющих на производительность PRM

Влияние масштабирования данных

Мы также исследовали влияние масштабирования как инструкций, так и ответов на производительность имплицитных PRM. Результаты показали, что увеличение числа инструкций и ответов последовательно улучшает производительность моделей. Однако оказалось, что увеличение числа ответов имеет более значительное влияние на производительность, чем увеличение числа инструкций.

Релевантность инструкций

Важно отметить, что инструкции должны быть релевантны для последующих задач, в то время как разнообразие ответов не приносит значительных преимуществ. Это подчеркивает необходимость в тщательном отборе данных для обучения.

Переобучение на метках шагов

Несмотря на то что мы не использовали метки шагов для обучения имплицитных PRM, мы провели эксперименты с обучением на дополнительных метках шагов, полученных из Math-Shepherd. Результаты показали, что это не привело к улучшению производительности, что подтверждает нашу гипотезу о том, что PRM можно эффективно обучать без меток на каждом шаге.

Заключение

Мы представили новый подход к обучению PRM без необходимости в разметке данных на каждом шаге, что значительно упрощает процесс обучения и снижает затраты на сбор данных. Наши результаты показывают, что имплицитные PRM могут достигать высокой производительности, используя только данные уровня ответов, что открывает новые горизонты для применения моделей вознаграждения в различных задачах.

Мы надеемся, что наше исследование вдохновит дальнейшие исследования в области обучения PRM и сделает этот процесс более доступным для широкого круга исследователей и практиков.

Статья на arxiv Оригинал pdf reward performance data

Ай Дайджест