SPAR: Улучшение следования инструкциям в больших языковых моделях
Следование инструкциям является фундаментальной способностью языковых моделей, требующей от модели распознавания даже самых тонких требований в инструкциях и точного отражения их в своем выводе. Такая способность хорошо подходит и часто оптимизируется методом обучения предпочтений. Однако существующие методы часто напрямую выбирают несколько независимых ответов от модели при создании пар предпочтений. Такая практика может вводить вариации в содержании, не имеющие отношения к тому, точно ли выполнена инструкция (например, разные выражения одной и той же семантики), мешая цели обучения моделей распознавать ключевые различия, ведущие к лучшему следованию инструкциям. В связи с этим мы представляем SPaR, структуру самоигры, интегрирующую деревоискающую саморефинацию, чтобы обеспечить действительные и сопоставимые пары предпочтений, свободные от отвлекающих факторов. Играя против самой себя, LLM использует стратегию деревоискаания, чтобы уточнить свои предыдущие ответы в отношении инструкции, минимизируя ненужные вариации. Наши эксперименты показывают, что модель LLaMA3-8B, обученная за три итерации под руководством SPaR, превосходит GPT-4-Turbo на эталонном испытании IFEval, не теряя общих способностей. Более того, SPaR демонстрирует многообещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4-9B и LLaMA3-70B. Мы также определяем, как масштабирование вывода в деревоискании повлияет на производительность модели. Наш код и данные доступны для общественности по адресу https://github.com/thu-coai/SPaR.