Ай Дайджест - категория rlhf

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

2024-11-06exploration rlhf efficiency