Ай Дайджест - категория self-consistency

Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

Само-согласование, при котором модели учатся улучшать себя без человеческой разметки, является быстро развивающейся областью исследований. Однако существующие методы часто не справляются с улучшением сложных задач мышления из-за трудности в присвоении правильных наград. Ортогональным подходом, который известен своей способностью улучшать точность, является само-согласованность, метод, применяемый на этапе вывода на основе многократной выборки для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию само-согласованности для помощи в обучении моделей. Мы вводим оптимизацию предпочтений само-согласованности (ScPO), которая итеративно обучает модели предпочитать согласованные ответы несогласованным на новых ненадзорных задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с традиционным обучением модели наград на задачах мышления, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинация ScPO со стандартным контролируемым обучением улучшает результаты еще больше. На ZebraLogic, ScPO дообучает Llama-3 8B, делая её превосходящей Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

2024-11-07reasoning unsupervised self-alignment