Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLMs) продемонстрировали впечатляющие способности в решении различных задач. Одной из ключевых областей, где эти модели показывают свои возможности, является сложное математическое рассуждение. Однако традиционные методы обучения, такие как обучение в контексте (ICL), сталкиваются с определенными ограничениями, особенно когда речь идет о сложных задачах. В этой статье мы рассмотрим новую парадигму, представленную в работе "Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS", которая предлагает более эффективный подход к решению математических задач.
Традиционные подходы к ICL, такие как Chain-of-Thought (CoT), зависят от качества предоставленных примеров. Модели LLM часто демонстрируют высокую чувствительность к характеристикам примеров, таким как количество, порядок и распределение меток. Это приводит к тому, что некачественные демонстрации могут негативно сказаться на производительности модели. Кроме того, создание высококачественных демонстраций требует значительных усилий со стороны человека, что делает процесс трудоемким и времязатратным. Наконец, текущие методы ICL имеют ограниченные возможности обобщения, что затрудняет применение моделей к новым задачам, требующим аналогичных логических структур, но представленных в другом формате.
Чтобы преодолеть эти ограничения, авторы предлагают новую парадигму, названную HiAR-ICL (High-level Automated Reasoning Paradigm in ICL). Эта парадигма смещает акцент с конкретных примеров на абстрактные мыслительные паттерны, расширяя традиционное понятие контекста в ICL. В рамках HiAR-ICL вводятся пять атомарных действий рассуждения, которые служат основными компонентами для построения цепочечных структурированных паттернов. Используя метод Монте-Карло для поиска деревьев (MCTS), мы исследуем пути рассуждения и конструируем "карты мыслей", которые направляют последующее рассуждение.
В HiAR-ICL определены пять атомарных действий, которые имитируют человеческое поведение в процессе рассуждения:
После определения атомарных действий, HiAR-ICL использует MCTS для получения оптимальных путей рассуждения. MCTS состоит из четырех основных этапов: выбор, расширение, симуляция и обратное распространение. На этапе выбора выбирается наиболее подходящий узел для последующего расширения. На этапе расширения выбранный узел расширяется путем выборки действий из политики LLM и генерации соответствующих результатов. На этапе симуляции выполняется полное моделирование, которое включает последовательный выбор и расширение узлов до достижения терминального узла. Наконец, на этапе обратного распространения обновляются значения узлов на основе результатов симуляции.
На этапе оценки HiAR-ICL применяет метрики когнитивной сложности для каждой тестовой задачи. Эти метрики включают количество подзадач, сложность условий задачи и семантическое сходство. На основе этих метрик выбираются два-три паттерна, которые наиболее близко соответствуют целевой задаче.
Используя выбранные карты мыслей, HiAR-ICL генерирует кандидатные решения для заданной тестовой задачи. Верификация включает в себя три методологии: процессный контроль, контроль результатов и основанные на консистентности подходы. Эти методики обеспечивают надежность и точность финального решения.
Экспериментальные результаты показывают, что HiAR-ICL значительно превосходит существующие методы на сложных задачах рассуждения, достигая точности 79.6% на бенчмарке MATH с использованием модели Qwen2.5-7B-Instruct, что существенно выше, чем у GPT-4o (76.6%) и Claude 3.5 (71.1%).
HiAR-ICL демонстрирует значительно лучшие результаты по сравнению с традиционными методами ICL, такими как Zero-shot CoT и Few-shot CoT. Например, точность модели Llama3-8B на бенчмарке MATH улучшилась с 17.8% до 43.2% с использованием HiAR-ICL, что говорит о значительном увеличении производительности.
Кроме того, HiAR-ICL показывает заметное снижение временной сложности по сравнению с другими методами. Например, на более простых наборах данных, таких как GSM8K и StrategyQA, метод демонстрирует значительное сокращение времени на 27.6X и 47.3X соответственно.
В данной работе представлена новая парадигма HiAR-ICL, которая расширяет концепцию контекста в ICL и позволяет LLM выполнять адаптивные и эффективные рассуждения для сложных задач. Включение абстрактных мыслительных паттернов вместо зависимости от качества примеров позволяет моделям развивать подлинные способности рассуждения, а не просто имитировать демонстрации. Экспериментальные результаты подтверждают, что HiAR-ICL значительно превосходит существующие методы, устанавливая надежную основу для дальнейшего развития сложного рассуждения в LLM.
Таким образом, HiAR-ICL представляет собой многообещающий шаг вперед в области автоматизированного рассуждения, открывая новые возможности для применения в широком спектре сложных задач.