Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Выравнивание крупных языковых моделей (LLM) с человеческими предпочтениями и практическими целями остается одной из ключевых задач в области искусственного интеллекта (AI). Посттренировочные методы, такие как дообучение (fine-tuning) и стратегии выравнивания, сыграли значительную роль в улучшении поведения LLM. Среди них, метод обучения с подкреплением на основе человеческой обратной связи (RLHF) выделяется как ведущая техника, интегрирующая человеческую обратную связь для направления моделей к производству ценных и полезных результатов. Однако, несмотря на успехи, RLHF включает в себя сложные механизмы, такие как моделирование вознаграждения и градиенты политики, что влечет за собой значительную сложность обучения и высокие вычислительные затраты.

В ответ на эти ограничения, в последнее время появился метод прямой оптимизации предпочтений (DPO), который предлагает более эффективную альтернативу. В отличие от методов, основанных на вознаграждении, таких как Proximal Policy Optimization (PPO), DPO напрямую корректирует вероятности выходных данных модели на основе человеческих предпочтений, сокращая сложность обучения и вычислительные затраты. DPO и подобные подходы могут предложить более стабильный и быстрый процесс выравнивания, обходя вызовы, связанные с моделями вознаграждения и обновлениями политики, что делает его привлекательным решением для эффективного выравнивания LLM.

Недавние достижения в области DPO сосредоточены на двух основных направлениях: эффективности, то есть дальнейшем упрощении ограничений DPO, и управляемости, то есть поддержании баланса между выравниванием и разнообразием генерации. В плане упрощения, методы, такие как SimPO и Odds Ratio Preference Optimization (ORPO), устраняют необходимость в эталонной модели, используя среднюю логарифмическую вероятность последовательностей в качестве неявного нормализатора, что снижает потребление памяти и вычислительные требования. Однако, производительность DPO чувствительна к силе ограничений от эталонной политики, и эти подходы без эталонной модели могут компрометировать контроль, что приводит к нестабильному обучению.

В плане управляемости, Token-level Direct Preference Optimization (TDPO) вводит ограничения на уровне токенов и последовательный дивергент KL для решения проблем, связанных с лингвистической когерентностью, разнообразием и стабильностью. Тем не менее, это достигается за счет увеличения вычислительной сложности, введения дополнительного последовательного дивергента KL и зависимости от эталонных моделей, что усложняет вычисление потерь.

Возникает естественный вопрос: "Есть ли метод, который может достичь правильного баланса между эффективностью и управляемостью?" В ответ на это, мы предлагаем FPO, Feature-level Constrained Direct Preference Optimization, который представляет собой эффективный и управляемый метод для ограничения модели на уровне признаков.

Основные понятия и методы

Direct Preference Optimization (DPO)

DPO предоставляет прямой способ выравнивания LLM с человеческими предпочтениями без явного использования модели вознаграждения. В практике, LLM получает на вход последовательность ( x ) (например, вопрос) и генерирует соответствующую последовательность ( y ) (например, ответ), где и ( x ), и ( y ) состоят из токенов. DPO отображает функцию вознаграждения ( r(x, y) ) в оптимальную политику, минимизируя обратный дивергент KL от эталонной модели. Это приводит к следующему уравнению для функции вознаграждения:

[ r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} + \beta \log Z(x) ]

где (\pi_\theta(\cdot|x)) и (\pi_{ref}(\cdot|x)) — это политика (т.е. LLM для посттренировки) и эталонные модели соответственно, (\beta) — коэффициент, регулирующий силу штрафа дивергента KL, (Z(x)) — функция раздела.

Simple Preference Optimization (SimPO)

SimPO упрощает оптимизацию предпочтений, устраняя необходимость в эталонной модели и выравнивая вознаграждения напрямую с нормализованной по длине логарифмической вероятностью выходных данных модели политики. Объективная функция SimPO может быть сформулирована следующим образом:

[ L_{SimPO}(\pi_\theta) = -E_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta |y_w| \log \pi_\theta(y_w|x) - \beta |y_l| \log \pi_\theta(y_l|x) - \gamma \right) \right] ]

где (\gamma) — положительный маржин, обеспечивающий, что вознаграждение за предпочтительный ответ превышает вознаграждение за менее предпочтительный ответ как минимум на (\gamma).

Token-Level Direct Preference Optimization (TDPO)

TDPO уточняет рамки DPO, работая на уровне токенов, учитывая последовательную природу генерации текста. Объективная функция TDPO определяется как:

[ \max_{\pi_\theta} E_{x, y_{<t} \sim D, z \sim \pi_\theta(\cdot|[x, y_{<t}])} \left[ A_{\pi_{ref}}([x, y_{<t}], z) - \beta D_{KL}(\pi_\theta(\cdot|[x, y_{<t}]) \parallel \pi_{ref}(\cdot|[x, y_{<t}])) \right] ]

где (A_{\pi_{ref}}([x, y_{<t}], z)) — это функция преимущества на уровне токенов, а (D_{KL}(\pi_1 \parallel \pi_2)) обозначает дивергент KL между (\pi_1) и (\pi_2).

Sparse Autoencoders (SAE)

SAE предоставляют метод для восстановления моносемантических интерпретируемых признаков, улучшая управляемость языковых моделей, где отдельные нейроны активируются в семантически разнообразных контекстах. Целью SAE является реконструкция внутренних представлений с использованием редко активируемых признаков, разделяя представления на интерпретируемые компоненты.

Feature-level Constrained Direct Preference Optimization (FPO)

FPO вводит эффективный и управляемый метод для ограничения модели на уровне признаков. Признак здесь относится к значимому куску информации для принятия решений моделью. Интуитивно, корректировка модели с использованием предпочтений на уровне признаков позволяет осуществлять тонкую настройку, минимизируя побочные эффекты, избегая негативного влияния ложных признаков, которые могут возникнуть при грубом контроле на уровне токенов.

Эксперименты и результаты

Эксперименты показали, что FPO последовательно превосходит современные методы, основанные на различных размерах базовых LLM, достигая до 5% абсолютных улучшений в показателе побед (win rate) на таких бенчмарках, как AlpacaEval-2 и Arena-Hard, и до 0.5 баллов на MT-Bench с конкурентоспособным разнообразием выходных данных. Ограничивая сдвиги этих признаков в процессе обучения, мы можем достигать результатов, которые соответствуют или даже превосходят эффективность последовательного дивергента KL при значительно более низких вычислительных затратах.

Заключение

В заключение, мы предложили FPO, новый метод для эффективного и стабильного выравнивания крупных языковых моделей с использованием ограничений на уровне признаков. Используя редкие автоэнкодеры и предварительно вычисленные оффлайн-референции, FPO снижает вычислительные накладные расходы, традиционно связанные с методами выравнивания, такими как DPO и TDPO. Наши экспериментальные результаты демонстрируют, что FPO достиг значительных улучшений в точности выравнивания и разнообразии генерации, поддерживая при этом низкое потребление ресурсов. Мы доказали, что FPO превосходит текущие передовые методы по всем трем направлениям: простоте реализации, эффективности и качеству генерации.

Статья на arxiv Оригинал pdf autoencoder alignment constraints

Ай Дайджест