Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Превышение примеров: Высокоуровневая автоматизированная парадигма рассуждений в контексте обучения с использованием MCTS

В последние годы большие языковые модели (LLMs) продемонстрировали впечатляющие способности в решении различных задач. Одной из ключевых областей, где эти модели показывают свои возможности, является сложное математическое рассуждение. Однако традиционные методы обучения, такие как обучение в контексте (ICL), сталкиваются с определенными ограничениями, особенно когда речь идет о сложных задачах. В этой статье мы рассмотрим новую парадигму, представленную в работе "Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS", которая предлагает более эффективный подход к решению математических задач.

Проблема

Традиционные подходы к ICL, такие как Chain-of-Thought (CoT), зависят от качества предоставленных примеров. Модели LLM часто демонстрируют высокую чувствительность к характеристикам примеров, таким как количество, порядок и распределение меток. Это приводит к тому, что некачественные демонстрации могут негативно сказаться на производительности модели. Кроме того, создание высококачественных демонстраций требует значительных усилий со стороны человека, что делает процесс трудоемким и времязатратным. Наконец, текущие методы ICL имеют ограниченные возможности обобщения, что затрудняет применение моделей к новым задачам, требующим аналогичных логических структур, но представленных в другом формате.

Решение: HiAR-ICL

Чтобы преодолеть эти ограничения, авторы предлагают новую парадигму, названную HiAR-ICL (High-level Automated Reasoning Paradigm in ICL). Эта парадигма смещает акцент с конкретных примеров на абстрактные мыслительные паттерны, расширяя традиционное понятие контекста в ICL. В рамках HiAR-ICL вводятся пять атомарных действий рассуждения, которые служат основными компонентами для построения цепочечных структурированных паттернов. Используя метод Монте-Карло для поиска деревьев (MCTS), мы исследуем пути рассуждения и конструируем "карты мыслей", которые направляют последующее рассуждение.

Атомарные действия рассуждения

В HiAR-ICL определены пять атомарных действий, которые имитируют человеческое поведение в процессе рассуждения:

  1. Анализ системы (SA): Анализ структуры задачи и выявление ограничений и условий.
  2. Одношаговое мышление (OST): Генерация следующего шага рассуждения на основе заданного вопроса и предыдущих шагов.
  3. Цепочка рассуждений (CoT): Построение логической последовательности промежуточных мыслей.
  4. Разделяй и властвуй (DC): Разделение сложной задачи на несколько более простых подзадач.
  5. Саморефлексия и уточнение (SRR): Вовлечение в своевременную рефлексию предыдущих решений и реализация необходимых уточнений.

Конструкция карт мыслей с использованием MCTS

После определения атомарных действий, HiAR-ICL использует MCTS для получения оптимальных путей рассуждения. MCTS состоит из четырех основных этапов: выбор, расширение, симуляция и обратное распространение. На этапе выбора выбирается наиболее подходящий узел для последующего расширения. На этапе расширения выбранный узел расширяется путем выборки действий из политики LLM и генерации соответствующих результатов. На этапе симуляции выполняется полное моделирование, которое включает последовательный выбор и расширение узлов до достижения терминального узла. Наконец, на этапе обратного распространения обновляются значения узлов на основе результатов симуляции.

Выбор паттернов рассуждения

На этапе оценки HiAR-ICL применяет метрики когнитивной сложности для каждой тестовой задачи. Эти метрики включают количество подзадач, сложность условий задачи и семантическое сходство. На основе этих метрик выбираются два-три паттерна, которые наиболее близко соответствуют целевой задаче.

Решение и верификация

Используя выбранные карты мыслей, HiAR-ICL генерирует кандидатные решения для заданной тестовой задачи. Верификация включает в себя три методологии: процессный контроль, контроль результатов и основанные на консистентности подходы. Эти методики обеспечивают надежность и точность финального решения.

Результаты

Экспериментальные результаты показывают, что HiAR-ICL значительно превосходит существующие методы на сложных задачах рассуждения, достигая точности 79.6% на бенчмарке MATH с использованием модели Qwen2.5-7B-Instruct, что существенно выше, чем у GPT-4o (76.6%) и Claude 3.5 (71.1%).

Сравнение с традиционными методами ICL

HiAR-ICL демонстрирует значительно лучшие результаты по сравнению с традиционными методами ICL, такими как Zero-shot CoT и Few-shot CoT. Например, точность модели Llama3-8B на бенчмарке MATH улучшилась с 17.8% до 43.2% с использованием HiAR-ICL, что говорит о значительном увеличении производительности.

Эффективность и скорость

Кроме того, HiAR-ICL показывает заметное снижение временной сложности по сравнению с другими методами. Например, на более простых наборах данных, таких как GSM8K и StrategyQA, метод демонстрирует значительное сокращение времени на 27.6X и 47.3X соответственно.

Заключение

В данной работе представлена новая парадигма HiAR-ICL, которая расширяет концепцию контекста в ICL и позволяет LLM выполнять адаптивные и эффективные рассуждения для сложных задач. Включение абстрактных мыслительных паттернов вместо зависимости от качества примеров позволяет моделям развивать подлинные способности рассуждения, а не просто имитировать демонстрации. Экспериментальные результаты подтверждают, что HiAR-ICL значительно превосходит существующие методы, устанавливая надежную основу для дальнейшего развития сложного рассуждения в LLM.

Таким образом, HiAR-ICL представляет собой многообещающий шаг вперед в области автоматизированного рассуждения, открывая новые возможности для применения в широком спектре сложных задач.