Оптимизация предпочтений с весами для имплицитной слияния моделей

В последние годы наблюдается значительный прогресс в области больших языковых моделей (LLMs), которые демонстрируют впечатляющие результаты в различных задачах обработки естественного языка. Однако, несмотря на их успехи, существует необходимость в улучшении их возможностей путем интеграции сильных сторон различных моделей. В этом контексте слияние моделей становится важной задачей, особенно когда речь идет о гетерогенных LLMs с различными архитектурами и размерами. В данной статье мы рассмотрим новый подход к слиянию моделей, названный Weighted-Reward Preference Optimization (WRPO), который предлагает эффективное решение для оптимизации предпочтений между источниками и целевой моделью без необходимости в выравнивании словарей и слиянии матриц распределений.

Проблема слияния моделей

Существующие методы слияния моделей, такие как явное слияние моделей (EMF), сталкиваются с несколькими серьезными проблемами. Во-первых, необходимо выравнивание словарей, что является сложной задачей, особенно когда используются модели с различными архитектурами. Во-вторых, слияние матриц распределений может привести к потере информации и введению шума, что негативно сказывается на производительности итоговой модели. Эти проблемы создают препятствия для эффективного слияния, что делает необходимым разработку более устойчивых и надежных методов.

Имплицитное слияние моделей (IMF)

Наша работа основывается на концепции имплицитного слияния моделей (IMF), которая направлена на улучшение возможностей целевой модели путем обучения на выходах устойчивых открытых LLMs. IMF позволяет избежать сложностей, связанных с выравниванием словарей и слиянием распределений. Мы предлагаем новый метод, WRPO, который использует оптимизацию предпочтений для эффективного переноса возможностей от источников к целевой модели.

Проблемы с распределениями

Одной из основных проблем, с которой сталкиваются методы IMF, является смещение распределений между ответами различных LLMs. Исследования показывают, что методы, такие как Direct Preference Optimization (DPO), чувствительны к смещениям распределений между моделью политики и данными предпочтений. Это может привести к ухудшению производительности, если не учитывать распределения ответов от различных источников.

Метод WRPO

Стратегия прогрессивной адаптации

WRPO вводит стратегию прогрессивной адаптации, которая позволяет целевой модели постепенно увеличивать свою зависимость от предпочтительных ответов, генерируемых источниками. Этот процесс реализуется в два этапа:

Сначала для каждого запроса генерируются ответы от источников, и на основе оценки с использованием модели вознаграждения выбирается предпочтительный ответ.
Затем целевая модель генерирует свои ответы, которые также оцениваются. В процессе обучения мы постепенно уменьшаем вес внутренних вознаграждений для ответов целевой модели и увеличиваем вес для ответов источников.

Оптимизация предпочтений

Оптимизация предпочтений в WRPO основана на концепции, что целевая модель может учиться на предпочтительных ответах, полученных от различных источников, что позволяет ей интегрировать сильные стороны этих моделей. Мы используем механизм взвешенного вознаграждения, который динамически настраивает вес для предпочтительных ответов от источников и целевой модели.

Эксперименты и результаты

Мы провели обширные эксперименты на трех широко используемых бенчмарках: MT-Bench, AlpacaEval-2 и Arena-Hard. Результаты показывают, что WRPO последовательно превосходит существующие методы слияния и различные базовые линии. Например, при применении WRPO к LLaMA3-8B-Instruct в качестве целевой модели мы достигли 55.9% победного результата против GPT-4-Preview-1106 на AlpacaEval-2.

Сравнение с другими методами

Мы сравнили WRPO с несколькими методами, включая EMF и другие методы оптимизации предпочтений, такие как DPO. WRPO показал значительные улучшения в производительности, что подтверждает его эффективность в контексте имплицитного слияния моделей.

Адаптивность WRPO

WRPO демонстрирует высокую адаптивность к различным задачам и может масштабироваться с увеличением количества источников LLMs. Мы провели эксперименты с различными конфигурациями источников и обнаружили, что увеличение их числа приводит к улучшению производительности целевой модели.

Заключение

В данной работе мы представили метод WRPO для имплицитного слияния моделей, который позволяет эффективно интегрировать возможности различных LLMs. WRPO устраняет необходимость в сложных процедурах выравнивания и слияния, что делает его более устойчивым и эффективным. Экспериментальные результаты подтверждают его превосходство над существующими методами, что открывает новые возможности для разработки более мощных и универсальных языковых моделей.

Статья на arxiv Оригинал pdf llm benchmark fusion

Ай Дайджест