Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Исследование механизмов неявного рассуждения у крупных языковых моделей (LLM)

В последние годы крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в решении сложных задач, включая многоступенчатые логические рассуждения. Одним из ключевых методов, который значительно улучшает способности LLM к рассуждению, является метод "Chain-of-Thought" (CoT) или цепочка мыслей. Этот метод подразумевает явное выражение промежуточных шагов рассуждения, что позволяет модели более точно и логично подходить к решению задачи. Однако, несмотря на эффективность, CoT имеет свои недостатки: он замедляет процесс вывода и увеличивает вычислительные затраты. В результате, исследователи начали искать альтернативы, которые бы позволяли моделям рассуждать неявно, то есть без необходимости генерировать каждый промежуточный шаг рассуждения.

Явное и неявное рассуждение

Явное рассуждение (explicit CoT) включает в себя последовательное выражение каждого шага решения задачи. Например, для решения задачи арифметики модель может последовательно выводить каждую операцию, что делает процесс прозрачным и понятным.

Неявное рассуждение (implicit CoT) предполагает, что модель может прийти к ответу без явного выражения каждого промежуточного шага. Предполагается, что модель может внутренне обрабатывать информацию, используя свои слои для "вертикального" рассуждения, где каждый слой может соответствовать определенному шагу логического процесса, но не выводит его наружу.

Цель исследования

В нашем исследовании мы ставили перед собой задачу выяснить, действительно ли LLM используют неявное рассуждение так же, как явное. Мы хотели понять, могут ли модели действительно выполнять многоступенчатые логические операции без явного выражения каждого шага, и если да, то как это происходит.

Методология

Для исследования мы выбрали мощную модель Qwen2.5-72B-Instruct, которая имеет 80 слоев. Мы использовали простые арифметические задачи, которые легко решаются через явное рассуждение, но модель была настроена на выдачу только конечного ответа без промежуточных шагов.

Дизайн эксперимента

  1. Создание задач: Мы создали набор из 2000 различных арифметических задач с пятью шагами, где каждый шаг был известен. Например, задача могла выглядеть так:

    E=8; D=E−5; C=D+2; B=C+5; A=B−1; 
    Вопрос: Каково значение A? Ответьте напрямую: A=xxx.
    
  2. Сбор данных: Модель выдавала ответ, и мы записывали скрытые состояния последнего токена каждого слоя модели.

  3. Анализ скрытых состояний: Используя линейный классификатор (1-слойный MLP), мы пытались предсказать промежуточные результаты из скрытых состояний. Если классификатор мог с высокой точностью предсказать результаты промежуточных шагов, это бы указывало на то, что модель действительно рассчитывает эти шаги внутренне.

Результаты

Результаты наших экспериментов были неожиданными и противоречили интуиции:

  • Первый и последний шаги: Модель явно запоминала начальные значения и могла предсказать конечный результат. Это показывает, что модель помнит входные данные и может интуитивно дать правильный ответ.

  • Промежуточные шаги: Точность предсказания промежуточных результатов была низкой, особенно для шагов, находящихся в середине процесса. Это указывает на то, что модель не следует строго шаг за шагом, а скорее использует какой-то другой механизм для получения ответа.

  • Устойчивость неявного рассуждения: Мы обнаружили, что даже небольшие изменения в задаче (например, изменение порядка уравнений или масштабирование значений) значительно ухудшали точность модели при использовании неявного рассуждения, в то время как явное рассуждение оставалось стабильным.

Выводы

Наше исследование показало, что LLM, несмотря на их способность часто давать правильные ответы на многоступенчатые задачи, не следуют строго шаг за шагом при неявном рассуждении. Вместо этого, они, вероятно, используют свои обширные знания и опыт, накопленные во время обучения, для интуитивного решения задач. Это означает, что неявное рассуждение может быть иллюзией, созданной мощной памятью и опытом модели, а не реальным процессом логического мышления.

Таким образом, явное рассуждение остается необходимым для задач, требующих высокой точности и надежности. Неявное рассуждение, хотя и может быть быстрее и менее затратным по вычислениям, не может заменить традиционные методы CoT, особенно для сложных задач, где каждая деталь имеет значение.