Ай Дайджест - категория divergence

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

2024-11-05optimization divergence reinforcement