Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLM) стали центральным элементом в области искусственного интеллекта, демонстрируя впечатляющие способности в понимании и генерации естественного языка. Однако, чтобы эти модели были полезны и безопасны для использования, их необходимо выравнивать с человеческими предпочтениями. Этот процесс, известный как выравнивание LLM, требует значительного количества обратной связи от пользователей или аннотаторов, что может быть дорогостоящим и трудоемким. В данной статье мы рассмотрим новый подход к выравниванию LLM, который обещает значительно улучшить эффективность использования данных, используя методы активного исследования и контекстуальных дуэльных бандитов.
Выравнивание LLM с человеческими предпочтениями — это процесс, при котором модель обучается генерировать ответы, которые соответствуют ожиданиям и ценностям пользователей. Это может включать в себя такие аспекты, как полезность, безопасность, правдивость и соответствие этическим нормам. Традиционные методы, такие как обучение с подкреплением от человеческой обратной связи (RLHF) или прямое выравнивание с предпочтениями (DAP), требуют большого количества аннотаций для достижения эффективного выравнивания, что делает процесс дорогим и неэффективным в плане использования данных.
Для улучшения эффективности выравнивания LLM, мы обращаемся к концепции контекстуальных дуэльных бандитов (CDB). CDB — это модель машинного обучения, в которой агент (в данном случае LLM) взаимодействует с окружающей средой (человеком), чтобы собрать опыт, который поможет улучшить его политику. В контексте выравнивания, каждый запрос к модели (контекст) приводит к выбору двух возможных ответов (действий), которые затем сравниваются, и один из них выбирается как предпочтительный.
Онлайн-взаимодействие: Модель должна действовать с последней обученной политикой и использовать полученный опыт для немедленного улучшения политики.
Активное исследование: Агент должен стратегически выбирать действия таким образом, чтобы собранный опыт максимально способствовал улучшению политики.
RLHF: Этот метод включает в себя обучение прокси-модели вознаграждения (RM) на основе предпочтений человека, а затем использование этой модели для обучения LLM с помощью методов оффлайн обучения с подкреплением. Однако, такие модели могут быть неточными вне распределения данных, на которых они были обучены.
DAP: В отличие от RLHF, DAP проводит контрастивное обучение непосредственно на данных предпочтений, что упрощает и стабилизирует процесс выравнивания.
Некоторые недавние работы предложили использовать активное исследование в онлайн-режиме, чтобы улучшить процесс выравнивания. Эти методы включают в себя:
UCB-подходы: Использование алгоритмов, основанных на принципе верхней границы доверительного интервала (UCB), для выбора ответов с наибольшей неопределенностью.
Эпистемическая неопределенность: Выбор ответов, которые максимизируют эпистемическую неопределенность, чтобы лучше исследовать пространство возможных ответов.
Двойное сэмплирование Томпсона (DTS): Применение двойного сэмплирования Томпсона для исследования, что позволяет балансировать между эксплорацией и эксплуатацией.
В нашем исследовании мы предлагаем новый алгоритм, названный SEA (Sample-Efficient Alignment), который объединяет принципы контекстуальных дуэльных бандитов и активного исследования для достижения более эффективного выравнивания LLM. SEA включает:
Эпистемическая модель вознаграждения: Модель, которая может оценивать не только вознаграждение, но и его неопределенность.
Поиск, руководимый политикой: Использование текущей политики модели для генерации предложений ответов, которые затем оцениваются на основе эпистемической неопределенности.
Обучение политики на смешанных предпочтениях: Обучение модели не только на реальных данных от пользователей, но и на синтетических данных, генерируемых эпистемической моделью вознаграждения.
Для проверки эффективности SEA мы провели обширные эксперименты, используя модели Pythia разных размеров (1B, 2.8B, 6.9B параметров), обученные на датасете TL;DR. Мы сравнивали SEA с базовыми методами, включая оффлайн и онлайн версии DPO, IPO и SLiC, а также с методами активного исследования, такими как APL и XPO.
Сравнение с базовыми методами: SEA показала значительно лучшую эффективность использования выборки, превосходя как оффлайн, так и онлайн методы по всем масштабам моделей и оптимизаторам.
Абляционный анализ: Было показано, что каждый компонент SEA (активное исследование, эпистемическая модель вознаграждения, обучение на смешанных предпочтениях) вносит важный вклад в общую эффективность.
Выбор стратегий исследования: В условиях E&E (explore and exploit) SEA с использованием стратегии E&E-TS показала наилучшие результаты, тогда как в условиях BAI (best arm identification) стратегия BAI-TS была более эффективной.
Выравнивание с симулятором человека: Используя GPT4o-mini в качестве симулятора человеческой обратной связи, SEA также продемонстрировала превосходство в реалистичных условиях.
SEA представляет собой значительный шаг вперед в области выравнивания LLM, предлагая метод, который максимально эффективно использует данные обратной связи. Использование активного исследования и контекстуальных дуэльных бандитов позволяет модели быстрее и лучше адаптироваться к предпочтениям пользователей, что открывает путь к более интеллектуальным и полезным языковым моделям. Мы надеемся, что наш подход и открытый код вдохновят на дальнейшие исследования в этой области, ведущие к созданию моделей, способных достигать сверхчеловеческих способностей с минимальными затратами на обратную связь.