SPAR: Улучшение следования инструкциям в больших языковых моделях

В последние годы большие языковые модели (LLM) продемонстрировали выдающиеся успехи в различных задачах, включая выполнение инструкций. Однако способность моделей точно следовать инструкциям, особенно с множеством ограничений, становится всё более критичной. В этой статье мы рассмотрим новый подход, предложенный в работе под названием "SPAR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models", который использует самоигру и стратегию поиска в дереве для улучшения следования инструкциям.

Следование инструкциям является одной из основных возможностей языковых моделей. Эта способность включает в себя распознавание даже самых тонких нюансов в инструкциях и точное их отражение в выходных данных. Существующие методы, такие как обучение предпочтениям, часто требуют создания пар предпочтений на основе независимых ответов модели. Однако этот подход может вводить нежелательные вариации, которые не имеют отношения к выполнению инструкции. Например, разные выражения одного и того же семантического содержания могут затруднить обучение модели.

Проблема

При создании пар предпочтений из независимых ответов модели могут возникать факторы, мешающие обучению. Например, если модель получает инструкции, такие как "Напишите историю и закончите её фразой 'Дьявол кроется в деталях'", она может создать совершенно разные истории, что затруднит обучение ключевым различиям, которые ведут к успешному выполнению инструкции.

SPAR: Новый подход

SPAR (Self-Play with Tree-Search Refinement) предлагает новую структуру, которая включает в себя самоигру и уточнение через поиск в дереве. Эта методология позволяет языковой модели учиться на собственных ошибках, минимизируя ненужные вариации и создавая более релевантные пары предпочтений для обучения.

Архитектура SPAR

В SPAR модель принимает две роли: актёр и рефинер. Оба они инициализируются из одной и той же базовой модели. Актёр генерирует ответы на сложные инструкции, в то время как рефинер оценивает и уточняет эти ответы. В процессе итеративного самоигры рефинер идентифицирует ответы, которые не соответствуют инструкциям, и собирает их для дальнейшего уточнения.

Процесс уточнения

После сбора "неправильных" ответов, SPAR применяет алгоритм поиска в дереве для их уточнения. Этот алгоритм систематически исследует возможные пути уточнения, что позволяет создать более точные и релевантные ответы. Важно отметить, что этот процесс создает эффективные пары для обучения, которые помогают модели лучше следовать инструкциям.

Экспериментальные результаты

В рамках экспериментов SPAR была протестирована на нескольких языковых моделях, включая LLaMA3 и GLM-4. Результаты показали значительное улучшение в способности моделей следовать инструкциям по сравнению с другими методами самосовершенствования, такими как самооценка и мета-вознаграждение. Например, LLaMA3-8B, обученная с использованием SPAR, превзошла GPT-4-Turbo на бенчмарке IFEval.

Масштабируемость и переносимость

SPAR также продемонстрировала обещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4 и LLaMA3-70B. Это указывает на возможность применения SPAR для улучшения различных LLM без потери общих способностей.

Влияние поиска в дереве на производительность модели

Одним из ключевых аспектов SPAR является использование поиска в дереве для уточнения ответов. Этот метод позволяет модели находить более точные ответы, исследуя множество возможных вариантов. В результате, модели, обученные с использованием SPAR, показывают лучшие результаты на тестах, чем те, которые используют традиционные методы.

Примеры применения

Для иллюстрации работы SPAR можно рассмотреть задачу генерации истории. Если актёр генерирует несколько версий истории, рефинер может определить, какие из них не соответствуют заданным критериям, и предложить уточнения, которые приведут к более точному выполнению инструкции.

Заключение

SPAR представляет собой новый подход к улучшению следования инструкциям в больших языковых моделях. Используя самоигру и уточнение через поиск в дереве, этот метод позволяет моделям учиться на собственных ошибках и минимизировать влияние нежелательных факторов. Результаты экспериментов показывают, что SPAR значительно улучшает способность моделей следовать сложным инструкциям, что открывает новые горизонты для дальнейших исследований в области LLM.

В конечном итоге, как говорит старая пословица, "Дьявол кроется в деталях".

Статья на arxiv Оригинал pdf preference learning inference

Ай Дайджест