SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В мире, где искусственный интеллект (AI) и большие языковые модели (LLMs) становятся все более важными, их выравнивание с человеческими ценностями и предпочтениями является ключевым моментом. Методы, такие как Reinforcement Learning from Human Feedback (RLHF), играют здесь важную роль, позволяя моделям лучше понимать и отвечать на запросы пользователей. Однако традиционные подходы к RLHF имеют свои ограничения, в частности, они ограничивают модели в исследовании пространства решений из-за использования фиксированной начальной политики как точки отсчета. В этом контексте, исследователи из Университета Мэриленда и Apple предложили новый метод под названием SALSA (Soup-based Alignment Learning for Stronger Adaptation), который обещает преодолеть эти ограничения.

Основные Проблемы и Решения в RLHF

Традиционный RLHF

RLHF традиционно использует алгоритмы, такие как Proximal Policy Optimization (PPO), где оптимизация политики происходит с учетом наказания за отклонение от начальной политики, измеряемого через Kullback-Leibler (KL) дивергенцию. Это ограничение, хотя и предотвращает отклонение модели в нежелательные области пространства решений, также препятствует исследованию новых, потенциально более выгодных областей.

SALSA: Новый Подход

SALSA предлагает использовать "модельный суп" (model soup) как точку отсчета вместо одной фиксированной модели. Модельный суп создается путем усреднения весов двух независимо обученных моделей, прошедших через supervised fine-tuning (SFT). Этот подход позволяет:

Более гибкое исследование: Использование модельного супа как референса дает модели больше свободы в исследовании пространства решений, что может привести к нахождению более оптимальных решений.
Улучшение стабильности и надежности: Модельный суп, будучи усреднением двух моделей, обладает улучшенной стабильностью и надежностью по сравнению с использованием одной модели.

Методология SALSA

Создание Модельного Супа

Модельный суп в SALSA создается следующим образом:

Обучение двух SFT моделей: Две модели обучаются на одном и том же наборе данных, но с разными начальными условиями (разными случайными семенами).
Усреднение весов: Веса этих двух моделей усредняются, что приводит к созданию модельного супа. Формально, если ( \pi_{ref} ) и ( \pi_{other} ) — это две SFT модели, то модельный суп ( \pi_{soup} ) определяется как:

[ \theta_{soup} = (1 - \alpha) \theta_{ref} + \alpha \theta_{other} ]

где ( \alpha ) — коэффициент усреднения, который в экспериментах был установлен на 0.5.

Адаптация PPO

В традиционном PPO используется следующая функция потерь:

[ L_{PPO}(\pi_\theta) = -R(x, y) + \beta KL(\pi_\theta(y|x) \parallel \pi_{ref}(y|x)) ]

В SALSA эта функция модифицируется так, что вместо ( \pi_{ref} ) используется ( \pi_{soup} ):

[ L_{SALSA}(\pi_\theta) = -R(x, y) + \beta KL(\pi_\theta(y|x) \parallel \pi_{soup}(y|x)) ]

Это позволяет модели исследовать пространство вокруг модельного супа, что ведет к улучшенной адаптации и производительности.

Экспериментальные Результаты

Используемые Модели и Данные

Для проверки эффективности SALSA были использованы модели Llama2-7B, Mistral-7B и Gemma-2B, а также наборы данных MT-Bench, Arena-Hard и UltraFeedback.

Анализ Наград

Анализ показал, что модельный суп находится в области параметрического пространства, связанной с более высокими наградами, что подтверждает гипотезу о том, что использование модельного супа как референса позволяет модели исследовать более выгодные области.

Основные Результаты

SALSA продемонстрировала превосходство над PPO и SFT по всем тестируемым моделям и наборам данных:

MT-Bench: SALSA показала улучшение на 52.50% для Llama2-7B, 51.89% для Mistral-7B и 57.19% для Gemma-2B по сравнению с PPO.
Arena-Hard: Улучшение составило 54.01% для Llama2-7B, 54.40% для Mistral-7B и 53.7% для Gemma-2B.
UltraFeedback: SALSA превзошла PPO на 50.75% для Llama2-7B, 52.40% для Mistral-7B и 50.68% для Gemma-2B.

Абляционное Исследование

Исследование показало, что оптимальный коэффициент усреднения ( \alpha ) составляет 0.5, что подтверждает эффективность использования модельного супа. Кроме того, было установлено, что использование большего числа моделей в супе приводит к улучшению результатов.

Заключение

SALSA предлагает новый взгляд на обучение с обратной связью от человека, позволяя моделям более эффективно исследовать пространство решений и достигать более высоких наград. Это не только улучшает производительность моделей, но и делает их более адаптированными к человеческим предпочтениям, что является ключевым аспектом в разработке надежных и полезных AI систем.

Статья на arxiv Оригинал pdf reinforcement optimization benchmark

Ай Дайджест