Свежая выжимка ml и AI статей - каждый день
В мире искусственного интеллекта (AI) и машинного обучения (ML) языковые модели (LLMs) становятся все более мощными и универсальными инструментами. Однако их обучение требует огромных объемов качественных данных, что часто является узким местом из-за высоких затрат на их сбор и аннотацию. В последнее время исследователи сосредотачиваются на методах самообучения, где модели учатся улучшать себя без необходимости в человеческой аннотации. Одним из таких методов является самосогласованная оптимизация предпочтений (Self-Consistency Preference Optimization, SCPO), который представляет собой инновационный подход к обучению моделей для решения сложных задач без доступа к эталонным решениям или финальным ответам.
SCPO расширяет концепцию самосогласованности, которая обычно применяется только на этапе вывода (inference time). Самосогласованность подразумевает, что если модель многократно генерирует один и тот же ответ на один и тот же вопрос, то вероятность того, что этот ответ правильный, увеличивается. В SCPO эта идея используется для обучения модели предпочитать согласованные ответы неконсистентным.
Генерация новых запросов: Модель генерирует новые задачи на основе существующих, используя методы few-shot prompting.
Аннотация пар предпочтений: Для каждой задачи генерируются несколько ответов, и выбираются наиболее и наименее согласованные ответы в качестве "победителя" и "проигравшего".
Оптимизация функции потерь: Функция потерь взвешивается в зависимости от уверенности модели в предпочтении одного ответа над другим.
Итеративное обучение: Процесс повторяется несколько раз, каждый раз улучшая модель на основе предыдущих итераций.
SCPO показала значительные улучшения в решении задач на логическое и математическое мышление, таких как GSM8K и MATH. После двух итераций обучения без доступа к эталонным ответам, SCPO улучшила точность модели на 22.74% и 5.26% для GSM8K и MATH соответственно, почти сравнявшись с результатами, полученными при обучении с использованием эталонных ответов.
Без эталонных ответов: SCPO превзошла методы, использующие внешние модели вознаграждения (reward models, RMs), особенно в условиях, когда данные выходят за рамки обучающей выборки модели.
С эталонными ответами: В полусупервизированном режиме, где доступны некоторые эталонные ответы, SCPO дополнительно улучшила результаты, превзойдя традиционные методы обучения с использованием эталонных данных.
На датасете ZebraLogic, который включает сложные логические головоломки, SCPO показала превосходство над моделями с большим числом параметров, такими как Llama-3 70B, Gemma-2 27B, и Claude-3 Haiku, улучшив точность решения задач на 6.5%.
Использование взвешенной функции потерь в SCPO оказалось критически важным для достижения высокой точности. Взвешивание позволяет модели учитывать уверенность в предпочтениях, что приводит к более качественному обучению.
С каждой итерацией обучения модели становятся более согласованными, что подтверждается увеличением доли голосов за наиболее согласованный ответ. Это указывает на то, что модель не только улучшает точность, но и становится более уверенной в своих ответах.
SCPO представляет собой значительный шаг вперед в области самообучения языковых моделей. Этот метод позволяет моделям улучшать себя без необходимости в обширных эталонных данных, что делает его особенно ценным для задач, где такие данные трудны или дороги для получения. Будущие исследования могут расширить применение SCPO на другие типы задач и исследовать использование универсальной самосогласованности для задач, где финальный ответ не может быть легко извлечен.
Таким образом, SCPO открывает новые горизонты в обучении языковых моделей, предлагая эффективный способ улучшения их производительности на сложных задачах логического и математического мышления, что может привести к созданию более автономных и самостоятельных AI-систем.