Свежая выжимка ml и AI статей - каждый день
В мире, где искусственный интеллект (AI) и большие языковые модели (LLMs) становятся все более важными, их выравнивание с человеческими ценностями и предпочтениями является ключевым моментом. Методы, такие как Reinforcement Learning from Human Feedback (RLHF), играют здесь важную роль, позволяя моделям лучше понимать и отвечать на запросы пользователей. Однако традиционные подходы к RLHF имеют свои ограничения, в частности, они ограничивают модели в исследовании пространства решений из-за использования фиксированной начальной политики как точки отсчета. В этом контексте, исследователи из Университета Мэриленда и Apple предложили новый метод под названием SALSA (Soup-based Alignment Learning for Stronger Adaptation), который обещает преодолеть эти ограничения.
RLHF традиционно использует алгоритмы, такие как Proximal Policy Optimization (PPO), где оптимизация политики происходит с учетом наказания за отклонение от начальной политики, измеряемого через Kullback-Leibler (KL) дивергенцию. Это ограничение, хотя и предотвращает отклонение модели в нежелательные области пространства решений, также препятствует исследованию новых, потенциально более выгодных областей.
SALSA предлагает использовать "модельный суп" (model soup) как точку отсчета вместо одной фиксированной модели. Модельный суп создается путем усреднения весов двух независимо обученных моделей, прошедших через supervised fine-tuning (SFT). Этот подход позволяет:
Модельный суп в SALSA создается следующим образом:
Обучение двух SFT моделей: Две модели обучаются на одном и том же наборе данных, но с разными начальными условиями (разными случайными семенами).
Усреднение весов: Веса этих двух моделей усредняются, что приводит к созданию модельного супа. Формально, если ( \pi_{ref} ) и ( \pi_{other} ) — это две SFT модели, то модельный суп ( \pi_{soup} ) определяется как:
[ \theta_{soup} = (1 - \alpha) \theta_{ref} + \alpha \theta_{other} ]
где ( \alpha ) — коэффициент усреднения, который в экспериментах был установлен на 0.5.
В традиционном PPO используется следующая функция потерь:
[ L_{PPO}(\pi_\theta) = -R(x, y) + \beta KL(\pi_\theta(y|x) \parallel \pi_{ref}(y|x)) ]
В SALSA эта функция модифицируется так, что вместо ( \pi_{ref} ) используется ( \pi_{soup} ):
[ L_{SALSA}(\pi_\theta) = -R(x, y) + \beta KL(\pi_\theta(y|x) \parallel \pi_{soup}(y|x)) ]
Это позволяет модели исследовать пространство вокруг модельного супа, что ведет к улучшенной адаптации и производительности.
Для проверки эффективности SALSA были использованы модели Llama2-7B, Mistral-7B и Gemma-2B, а также наборы данных MT-Bench, Arena-Hard и UltraFeedback.
Анализ показал, что модельный суп находится в области параметрического пространства, связанной с более высокими наградами, что подтверждает гипотезу о том, что использование модельного супа как референса позволяет модели исследовать более выгодные области.
SALSA продемонстрировала превосходство над PPO и SFT по всем тестируемым моделям и наборам данных:
Исследование показало, что оптимальный коэффициент усреднения ( \alpha ) составляет 0.5, что подтверждает эффективность использования модельного супа. Кроме того, было установлено, что использование большего числа моделей в супе приводит к улучшению результатов.
SALSA предлагает новый взгляд на обучение с обратной связью от человека, позволяя моделям более эффективно исследовать пространство решений и достигать более высоких наград. Это не только улучшает производительность моделей, но и делает их более адаптированными к человеческим предпочтениям, что является ключевым аспектом в разработке надежных и полезных AI систем.