Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

В мире искусственного интеллекта (AI) и машинного обучения (ML) языковые модели (LLMs) становятся все более мощными и универсальными инструментами. Однако их обучение требует огромных объемов качественных данных, что часто является узким местом из-за высоких затрат на их сбор и аннотацию. В последнее время исследователи сосредотачиваются на методах самообучения, где модели учатся улучшать себя без необходимости в человеческой аннотации. Одним из таких методов является самосогласованная оптимизация предпочтений (Self-Consistency Preference Optimization, SCPO), который представляет собой инновационный подход к обучению моделей для решения сложных задач без доступа к эталонным решениям или финальным ответам.

Что такое Самосогласованная Оптимизация Предпочтений?

SCPO расширяет концепцию самосогласованности, которая обычно применяется только на этапе вывода (inference time). Самосогласованность подразумевает, что если модель многократно генерирует один и тот же ответ на один и тот же вопрос, то вероятность того, что этот ответ правильный, увеличивается. В SCPO эта идея используется для обучения модели предпочитать согласованные ответы неконсистентным.

Основные шаги SCPO:

Генерация новых запросов: Модель генерирует новые задачи на основе существующих, используя методы few-shot prompting.
Аннотация пар предпочтений: Для каждой задачи генерируются несколько ответов, и выбираются наиболее и наименее согласованные ответы в качестве "победителя" и "проигравшего".
Оптимизация функции потерь: Функция потерь взвешивается в зависимости от уверенности модели в предпочтении одного ответа над другим.
Итеративное обучение: Процесс повторяется несколько раз, каждый раз улучшая модель на основе предыдущих итераций.

Экспериментальные Результаты

Улучшение производительности

SCPO показала значительные улучшения в решении задач на логическое и математическое мышление, таких как GSM8K и MATH. После двух итераций обучения без доступа к эталонным ответам, SCPO улучшила точность модели на 22.74% и 5.26% для GSM8K и MATH соответственно, почти сравнявшись с результатами, полученными при обучении с использованием эталонных ответов.

Сравнение с другими методами

Без эталонных ответов: SCPO превзошла методы, использующие внешние модели вознаграждения (reward models, RMs), особенно в условиях, когда данные выходят за рамки обучающей выборки модели.
С эталонными ответами: В полусупервизированном режиме, где доступны некоторые эталонные ответы, SCPO дополнительно улучшила результаты, превзойдя традиционные методы обучения с использованием эталонных данных.

Применение на Задачах Зебры

На датасете ZebraLogic, который включает сложные логические головоломки, SCPO показала превосходство над моделями с большим числом параметров, такими как Llama-3 70B, Gemma-2 27B, и Claude-3 Haiku, улучшив точность решения задач на 6.5%.

Анализ и Заключение

Важность взвешенной функции потерь

Использование взвешенной функции потерь в SCPO оказалось критически важным для достижения высокой точности. Взвешивание позволяет модели учитывать уверенность в предпочтениях, что приводит к более качественному обучению.

Увеличение согласованности

С каждой итерацией обучения модели становятся более согласованными, что подтверждается увеличением доли голосов за наиболее согласованный ответ. Это указывает на то, что модель не только улучшает точность, но и становится более уверенной в своих ответах.

Заключение

SCPO представляет собой значительный шаг вперед в области самообучения языковых моделей. Этот метод позволяет моделям улучшать себя без необходимости в обширных эталонных данных, что делает его особенно ценным для задач, где такие данные трудны или дороги для получения. Будущие исследования могут расширить применение SCPO на другие типы задач и исследовать использование универсальной самосогласованности для задач, где финальный ответ не может быть легко извлечен.

Таким образом, SCPO открывает новые горизонты в обучении языковых моделей, предлагая эффективный способ улучшения их производительности на сложных задачах логического и математического мышления, что может привести к созданию более автономных и самостоятельных AI-систем.

Статья на arxiv Оригинал pdf self-alignment reasoning finetuning

Ай Дайджест