Свежая выжимка ml и AI статей - каждый день
В последние годы наблюдается значительный прогресс в области больших языковых моделей (LLMs), которые демонстрируют впечатляющие результаты в различных задачах обработки естественного языка. Однако, несмотря на их успехи, существует необходимость в улучшении их возможностей путем интеграции сильных сторон различных моделей. В этом контексте слияние моделей становится важной задачей, особенно когда речь идет о гетерогенных LLMs с различными архитектурами и размерами. В данной статье мы рассмотрим новый подход к слиянию моделей, названный Weighted-Reward Preference Optimization (WRPO), который предлагает эффективное решение для оптимизации предпочтений между источниками и целевой моделью без необходимости в выравнивании словарей и слиянии матриц распределений.
Существующие методы слияния моделей, такие как явное слияние моделей (EMF), сталкиваются с несколькими серьезными проблемами. Во-первых, необходимо выравнивание словарей, что является сложной задачей, особенно когда используются модели с различными архитектурами. Во-вторых, слияние матриц распределений может привести к потере информации и введению шума, что негативно сказывается на производительности итоговой модели. Эти проблемы создают препятствия для эффективного слияния, что делает необходимым разработку более устойчивых и надежных методов.
Наша работа основывается на концепции имплицитного слияния моделей (IMF), которая направлена на улучшение возможностей целевой модели путем обучения на выходах устойчивых открытых LLMs. IMF позволяет избежать сложностей, связанных с выравниванием словарей и слиянием распределений. Мы предлагаем новый метод, WRPO, который использует оптимизацию предпочтений для эффективного переноса возможностей от источников к целевой модели.
Одной из основных проблем, с которой сталкиваются методы IMF, является смещение распределений между ответами различных LLMs. Исследования показывают, что методы, такие как Direct Preference Optimization (DPO), чувствительны к смещениям распределений между моделью политики и данными предпочтений. Это может привести к ухудшению производительности, если не учитывать распределения ответов от различных источников.
WRPO вводит стратегию прогрессивной адаптации, которая позволяет целевой модели постепенно увеличивать свою зависимость от предпочтительных ответов, генерируемых источниками. Этот процесс реализуется в два этапа:
Оптимизация предпочтений в WRPO основана на концепции, что целевая модель может учиться на предпочтительных ответах, полученных от различных источников, что позволяет ей интегрировать сильные стороны этих моделей. Мы используем механизм взвешенного вознаграждения, который динамически настраивает вес для предпочтительных ответов от источников и целевой модели.
Мы провели обширные эксперименты на трех широко используемых бенчмарках: MT-Bench, AlpacaEval-2 и Arena-Hard. Результаты показывают, что WRPO последовательно превосходит существующие методы слияния и различные базовые линии. Например, при применении WRPO к LLaMA3-8B-Instruct в качестве целевой модели мы достигли 55.9% победного результата против GPT-4-Preview-1106 на AlpacaEval-2.
Мы сравнили WRPO с несколькими методами, включая EMF и другие методы оптимизации предпочтений, такие как DPO. WRPO показал значительные улучшения в производительности, что подтверждает его эффективность в контексте имплицитного слияния моделей.
WRPO демонстрирует высокую адаптивность к различным задачам и может масштабироваться с увеличением количества источников LLMs. Мы провели эксперименты с различными конфигурациями источников и обнаружили, что увеличение их числа приводит к улучшению производительности целевой модели.
В данной работе мы представили метод WRPO для имплицитного слияния моделей, который позволяет эффективно интегрировать возможности различных LLMs. WRPO устраняет необходимость в сложных процедурах выравнивания и слияния, что делает его более устойчивым и эффективным. Экспериментальные результаты подтверждают его превосходство над существующими методами, что открывает новые возможности для разработки более мощных и универсальных языковых моделей.