Свежая выжимка ml и AI статей - каждый день
В мире искусственного интеллекта большие языковые модели (LLM) становятся ключевым инструментом для решения сложных задач, особенно в области математики, где требуется глубокое логическое мышление. Методология "Цепочка мыслей" (Chain of Thought, CoT), предложенная в 2022 году Вей и соавторами, показала значительное улучшение в способности моделей решать сложные задачи, разбивая их на последовательные шаги. Это позволяет моделям демонстрировать более продвинутые способности к решению проблем.
Однако, несмотря на эти достижения, существует проблема: модели склонны к краткости ответов из-за предпочтений пользователей или требуют дорогих данных для обучения сложным рассуждениям. Это ограничивает их потенциал в решении сложных задач. Мы предлагаем новый подход, который не требует введения новых знаний или навыков, а вместо этого поощряет модели к более терпеливому и детальному рассуждению.
Наш метод включает четыре основных шага:
Сбор данных: Мы собираем тысячи математических задач начального уровня.
Генерация решений: Используя LLM, такую как GPT-4, мы генерируем решения задач с относительно краткими шагами CoT. Только правильные решения сохраняются.
Уточнение решений: Мы просим LLM уточнить решения, делая их более интуитивными, понятными и детальными, как если бы они предназначались для новичков.
Обучение: Используем уточненные решения в качестве положительных примеров, а краткие решения - в качестве отрицательных, применяя технику оптимизации предпочтений (DPO) для обучения базовой модели.
Рассмотрим задачу:
Задача: Если Джереми сыграл слово из трёх букв на тройном счёте и заработал 30 очков, а до того, как счёт был утроен, первая и третья буквы стоили по одному очку, какова была стоимость средней буквы до утроения счёта?
Оригинальное решение:
Терпеливое решение:
Мы использовали датасет Step-DPO для наших экспериментов, который уже содержит задачи, их ответы и краткие решения. Мы применили GPT-4 для уточнения этих решений, делая их более подробными и понятными. Затем использовали Qwen2-7B-Instruct в качестве базовой модели для обучения с использованием техники DPO.
Наш метод показал улучшение на 6.7% на бенчмарке GSM8k и на 0.2% на бенчмарке MATH, при этом время вывода увеличилось, но осталось в приемлемых пределах. Это подтверждает эффективность нашего подхода в улучшении способности моделей к решению сложных задач.
| Метод | GSM8k | MATH | Время (сек) | |---------|-------|------|-------------| | Базовый | 81.2 | 48.8 | 7.2 | | Наш | 87.9 | 49.0 | 10.9 |
Мы представили простой, но эффективный метод для улучшения способности больших языковых моделей к решению сложных задач, поощряя более терпеливое и детальное рассуждение. Наш подход не требует дорогих датасетов и показывает значительное улучшение в математическом решении задач. Хотя это требует немного больше времени на вывод, преимущества в точности делают его оправданным выбором. Эти результаты подчёркивают важность глубокого и последовательного рассуждения в приложениях LLM, открывая путь для дальнейших исследований в оптимизации стратегий решения сложных задач.