Свежая выжимка ml и AI статей - каждый день
Выравнивание крупных языковых моделей (LLM) с человеческими предпочтениями и практическими целями остается одной из ключевых задач в области искусственного интеллекта (AI). Посттренировочные методы, такие как дообучение (fine-tuning) и стратегии выравнивания, сыграли значительную роль в улучшении поведения LLM. Среди них, метод обучения с подкреплением на основе человеческой обратной связи (RLHF) выделяется как ведущая техника, интегрирующая человеческую обратную связь для направления моделей к производству ценных и полезных результатов. Однако, несмотря на успехи, RLHF включает в себя сложные механизмы, такие как моделирование вознаграждения и градиенты политики, что влечет за собой значительную сложность обучения и высокие вычислительные затраты.
В ответ на эти ограничения, в последнее время появился метод прямой оптимизации предпочтений (DPO), который предлагает более эффективную альтернативу. В отличие от методов, основанных на вознаграждении, таких как Proximal Policy Optimization (PPO), DPO напрямую корректирует вероятности выходных данных модели на основе человеческих предпочтений, сокращая сложность обучения и вычислительные затраты. DPO и подобные подходы могут предложить более стабильный и быстрый процесс выравнивания, обходя вызовы, связанные с моделями вознаграждения и обновлениями политики, что делает его привлекательным решением для эффективного выравнивания LLM.
Недавние достижения в области DPO сосредоточены на двух основных направлениях: эффективности, то есть дальнейшем упрощении ограничений DPO, и управляемости, то есть поддержании баланса между выравниванием и разнообразием генерации. В плане упрощения, методы, такие как SimPO и Odds Ratio Preference Optimization (ORPO), устраняют необходимость в эталонной модели, используя среднюю логарифмическую вероятность последовательностей в качестве неявного нормализатора, что снижает потребление памяти и вычислительные требования. Однако, производительность DPO чувствительна к силе ограничений от эталонной политики, и эти подходы без эталонной модели могут компрометировать контроль, что приводит к нестабильному обучению.
В плане управляемости, Token-level Direct Preference Optimization (TDPO) вводит ограничения на уровне токенов и последовательный дивергент KL для решения проблем, связанных с лингвистической когерентностью, разнообразием и стабильностью. Тем не менее, это достигается за счет увеличения вычислительной сложности, введения дополнительного последовательного дивергента KL и зависимости от эталонных моделей, что усложняет вычисление потерь.
Возникает естественный вопрос: "Есть ли метод, который может достичь правильного баланса между эффективностью и управляемостью?" В ответ на это, мы предлагаем FPO, Feature-level Constrained Direct Preference Optimization, который представляет собой эффективный и управляемый метод для ограничения модели на уровне признаков.
DPO предоставляет прямой способ выравнивания LLM с человеческими предпочтениями без явного использования модели вознаграждения. В практике, LLM получает на вход последовательность ( x ) (например, вопрос) и генерирует соответствующую последовательность ( y ) (например, ответ), где и ( x ), и ( y ) состоят из токенов. DPO отображает функцию вознаграждения ( r(x, y) ) в оптимальную политику, минимизируя обратный дивергент KL от эталонной модели. Это приводит к следующему уравнению для функции вознаграждения:
[ r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} + \beta \log Z(x) ]
где (\pi_\theta(\cdot|x)) и (\pi_{ref}(\cdot|x)) — это политика (т.е. LLM для посттренировки) и эталонные модели соответственно, (\beta) — коэффициент, регулирующий силу штрафа дивергента KL, (Z(x)) — функция раздела.
SimPO упрощает оптимизацию предпочтений, устраняя необходимость в эталонной модели и выравнивая вознаграждения напрямую с нормализованной по длине логарифмической вероятностью выходных данных модели политики. Объективная функция SimPO может быть сформулирована следующим образом:
[ L_{SimPO}(\pi_\theta) = -E_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta |y_w| \log \pi_\theta(y_w|x) - \beta |y_l| \log \pi_\theta(y_l|x) - \gamma \right) \right] ]
где (\gamma) — положительный маржин, обеспечивающий, что вознаграждение за предпочтительный ответ превышает вознаграждение за менее предпочтительный ответ как минимум на (\gamma).
TDPO уточняет рамки DPO, работая на уровне токенов, учитывая последовательную природу генерации текста. Объективная функция TDPO определяется как:
[ \max_{\pi_\theta} E_{x, y_{<t} \sim D, z \sim \pi_\theta(\cdot|[x, y_{<t}])} \left[ A_{\pi_{ref}}([x, y_{<t}], z) - \beta D_{KL}(\pi_\theta(\cdot|[x, y_{<t}]) \parallel \pi_{ref}(\cdot|[x, y_{<t}])) \right] ]
где (A_{\pi_{ref}}([x, y_{<t}], z)) — это функция преимущества на уровне токенов, а (D_{KL}(\pi_1 \parallel \pi_2)) обозначает дивергент KL между (\pi_1) и (\pi_2).
SAE предоставляют метод для восстановления моносемантических интерпретируемых признаков, улучшая управляемость языковых моделей, где отдельные нейроны активируются в семантически разнообразных контекстах. Целью SAE является реконструкция внутренних представлений с использованием редко активируемых признаков, разделяя представления на интерпретируемые компоненты.
FPO вводит эффективный и управляемый метод для ограничения модели на уровне признаков. Признак здесь относится к значимому куску информации для принятия решений моделью. Интуитивно, корректировка модели с использованием предпочтений на уровне признаков позволяет осуществлять тонкую настройку, минимизируя побочные эффекты, избегая негативного влияния ложных признаков, которые могут возникнуть при грубом контроле на уровне токенов.
Эксперименты показали, что FPO последовательно превосходит современные методы, основанные на различных размерах базовых LLM, достигая до 5% абсолютных улучшений в показателе побед (win rate) на таких бенчмарках, как AlpacaEval-2 и Arena-Hard, и до 0.5 баллов на MT-Bench с конкурентоспособным разнообразием выходных данных. Ограничивая сдвиги этих признаков в процессе обучения, мы можем достигать результатов, которые соответствуют или даже превосходят эффективность последовательного дивергента KL при значительно более низких вычислительных затратах.
В заключение, мы предложили FPO, новый метод для эффективного и стабильного выравнивания крупных языковых моделей с использованием ограничений на уровне признаков. Используя редкие автоэнкодеры и предварительно вычисленные оффлайн-референции, FPO снижает вычислительные накладные расходы, традиционно связанные с методами выравнивания, такими как DPO и TDPO. Наши экспериментальные результаты демонстрируют, что FPO достиг значительных улучшений в точности выравнивания и разнообразии генерации, поддерживая при этом низкое потребление ресурсов. Мы доказали, что FPO превосходит текущие передовые методы по всем трем направлениям: простоте реализации, эффективности и качеству генерации.