Свежая выжимка ml и AI статей - каждый день
В мире больших языковых моделей (LLM), где точность следования инструкциям становится ключевым фактором, особенно в условиях возрастающей сложности задач, возникает потребность в эффективных методах улучшения этого аспекта. Данная статья знакомит читателей с новым подходом, известным как Input-Output Preference Optimization (IOPO), который обещает значительно повысить способность LLM следовать сложным инструкциям.
С развитием LLM и их интеграцией в различные приложения, требования к их способности понимать и выполнять инструкции становятся все более высокими. Сложные инструкции, включающие множество ограничений и условий, представляют собой особую сложность. Однако, существующие методы, такие как Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO), не всегда справляются с этой задачей наилучшим образом.
Для оценки и улучшения способности LLM следовать сложным инструкциям, авторы статьи вводят TRACE — бенчмарк, который содержит 120 тысяч обучающих примеров и 1 тысячу примеров для оценки. TRACE разработан для автоматического построения инструкций с множественными ограничениями, что позволяет более точно оценивать и улучшать модели.
TRACE включает в себя:
IOPO предлагает новый взгляд на оптимизацию предпочтений, учитывая как входные данные (инструкции), так и выходные (ответы). В отличие от DPO, который фокусируется только на предпочтениях в ответах, IOPO:
Эксперименты, проведенные на TRACE и других бенчмарках, показали, что IOPO значительно улучшает способность LLM следовать сложным инструкциям. В частности, IOPO показал улучшение на 8.15% и 2.18% по сравнению с SFT и DPO на внутренних данных, и на 6.29% и 3.13% на внешних данных соответственно.
IOPO представляет собой инновационный подход к оптимизации предпочтений в LLM, который обещает улучшить их способность выполнять сложные инструкции. Введение TRACE как бенчмарка для оценки и улучшения моделей открывает новые возможности для исследований в области машинного обучения и искусственного интеллекта. В будущем ожидается дальнейшее развитие методов, направленных на улучшение понимания и выполнения сложных инструкций LLM, что будет способствовать их более широкому и эффективному применению в различных областях.