Терпение - ключ к рассуждениям больших языковых моделей

В мире искусственного интеллекта большие языковые модели (LLM) становятся ключевым инструментом для решения сложных задач, особенно в области математики, где требуется глубокое логическое мышление. Методология "Цепочка мыслей" (Chain of Thought, CoT), предложенная в 2022 году Вей и соавторами, показала значительное улучшение в способности моделей решать сложные задачи, разбивая их на последовательные шаги. Это позволяет моделям демонстрировать более продвинутые способности к решению проблем.

Однако, несмотря на эти достижения, существует проблема: модели склонны к краткости ответов из-за предпочтений пользователей или требуют дорогих данных для обучения сложным рассуждениям. Это ограничивает их потенциал в решении сложных задач. Мы предлагаем новый подход, который не требует введения новых знаний или навыков, а вместо этого поощряет модели к более терпеливому и детальному рассуждению.

Методология

Наш метод включает четыре основных шага:

Сбор данных: Мы собираем тысячи математических задач начального уровня.
Генерация решений: Используя LLM, такую как GPT-4, мы генерируем решения задач с относительно краткими шагами CoT. Только правильные решения сохраняются.
Уточнение решений: Мы просим LLM уточнить решения, делая их более интуитивными, понятными и детальными, как если бы они предназначались для новичков.
Обучение: Используем уточненные решения в качестве положительных примеров, а краткие решения - в качестве отрицательных, применяя технику оптимизации предпочтений (DPO) для обучения базовой модели.

Примеры

Рассмотрим задачу:

Задача: Если Джереми сыграл слово из трёх букв на тройном счёте и заработал 30 очков, а до того, как счёт был утроен, первая и третья буквы стоили по одному очку, какова была стоимость средней буквы до утроения счёта?

Оригинальное решение:

Шаг 1: Сумма очков за первую и третью буквы до утроения равна 1 + 1 = 2 очка.
Шаг 2: Счёт слова был утроен, чтобы получить 30 очков, значит, первоначальный счёт был 30 / 3 = 10 очков.
Шаг 3: Стоимость средней буквы до утроения счёта равна 10 - 2 = 8 очков.

Терпеливое решение:

Шаг 1: Понимание общего количества очков после утроения. Джереми сыграл слово на тройном счёте и заработал 30 очков.
Шаг 2: Вычисление первоначального счёта слова до утроения. Делим 30 очков на 3: 30 / 3 = 10. Итак, первоначальный счёт слова был 10 очков.
Шаг 3: Определение вклада первой и третьей букв. Первая и третья буквы стоят по 1 очку, значит, их суммарный вклад равен 1 + 1 = 2 очка.
Шаг 4: Вычисление стоимости средней буквы. Зная, что первоначальный счёт слова был 10 очков, и первые две буквы внесли 2 очка, средняя буква должна была внести остальные очки. Стоимость средней буквы = 10 - 2 = 8 очков.

Эксперименты

Мы использовали датасет Step-DPO для наших экспериментов, который уже содержит задачи, их ответы и краткие решения. Мы применили GPT-4 для уточнения этих решений, делая их более подробными и понятными. Затем использовали Qwen2-7B-Instruct в качестве базовой модели для обучения с использованием техники DPO.

Результаты

Наш метод показал улучшение на 6.7% на бенчмарке GSM8k и на 0.2% на бенчмарке MATH, при этом время вывода увеличилось, но осталось в приемлемых пределах. Это подтверждает эффективность нашего подхода в улучшении способности моделей к решению сложных задач.

| Метод | GSM8k | MATH | Время (сек) | |---------|-------|------|-------------| | Базовый | 81.2 | 48.8 | 7.2 | | Наш | 87.9 | 49.0 | 10.9 |

Заключение

Мы представили простой, но эффективный метод для улучшения способности больших языковых моделей к решению сложных задач, поощряя более терпеливое и детальное рассуждение. Наш подход не требует дорогих датасетов и показывает значительное улучшение в математическом решении задач. Хотя это требует немного больше времени на вывод, преимущества в точности делают его оправданным выбором. Эти результаты подчёркивают важность глубокого и последовательного рассуждения в приложениях LLM, открывая путь для дальнейших исследований в оптимизации стратегий решения сложных задач.