Свежая выжимка ml и AI статей - каждый день
В последние годы большие языковые модели (LLMs) продемонстрировали выдающиеся способности к рассуждению, основанные на обширном предварительном обучении на человеческих языках. Однако традиционные подходы к обучению LLM, такие как цепочка размышлений (CoT), могут не всегда быть оптимальными для выполнения сложных логических задач. В данной статье мы рассмотрим новую парадигму, известную как Coconut (Цепочка Непрерывного Мысли), которая позволяет LLM рассуждать в непрерывном латентном пространстве, а не в языковом.
Coconut представляет собой новый подход к рассуждению, который использует последнее скрытое состояние LLM как представление состояния рассуждения, называемое "непрерывной мыслью". Вместо того чтобы декодировать это состояние в последовательность токенов, мы возвращаем его обратно в LLM в качестве следующего входного встраивания. Это позволяет модели работать в более свободном латентном пространстве, свободном от ограничений языка, что, как показали эксперименты, улучшает ее способности к рассуждению.
Традиционные методы, такие как CoT, требуют от LLM генерировать решение проблемы шаг за шагом, используя естественный язык. Однако это может привести к неэффективному распределению вычислительных ресурсов, когда большинство токенов генерируются для обеспечения текущей связности текста, а не для фактического рассуждения. В результате некоторые критические токены, требующие сложного планирования, могут представлять собой огромные вызовы для LLM.
Coconut позволяет LLM использовать скрытые состояния для выполнения рассуждений, не ограничиваясь языковым пространством. Это подход дает возможность модели одновременно рассматривать несколько альтернативных шагов рассуждения, что позволяет ей проводить поиск в ширину (BFS) для решения задач, вместо того чтобы преждевременно принимать решения.
В рамках Coconut LLM переключается между "языковым режимом" и "латентным режимом". В языковом режиме модель работает как стандартная языковая модель, генерируя следующий токен. В латентном режиме она использует последнее скрытое состояние как следующее входное встраивание, что позволяет ей свободно проводить рассуждения.
Обучение Coconut включает в себя многоступенчатую стратегию, которая использует данные CoT для управления процессом обучения. На начальном этапе модель обучается на обычных примерах CoT, а затем в последующих этапах заменяются шаги рассуждения на непрерывные мысли.
Для оценки эффективности Coconut были проведены эксперименты на нескольких наборах данных, включая GSM8k для математического рассуждения и ProntoQA для логического рассуждения. Результаты показали, что Coconut значительно улучшает точность рассуждения по сравнению с традиционными методами.
Coconut не только демонстрирует более высокую точность, но и генерирует меньше токенов во время вывода, что указывает на более высокую эффективность рассуждения. Это позволяет LLM более эффективно использовать вычислительные ресурсы.
Эксперименты показали, что Coconut превосходит CoT в задачах, требующих значительного планирования и обратного отслеживания, что подтверждает возможность использования латентного пространства для более сложных рассуждений.
Латентное рассуждение в Coconut можно интерпретировать как дерево поиска, где модель может выбирать между несколькими путями, что улучшает ее способность к планированию. Это позволяет модели избегать преждевременных решений и более эффективно оценивать варианты.
Использование латентного пространства для рассуждения позволяет LLM более эффективно планировать и принимать решения, так как модель может откладывать окончательные выводы до тех пор, пока не будет достигнуто более высокое уверенность в правильности выбранного пути.
Coconut представляет собой значительный шаг вперед в области машинного рассуждения, позволяя LLM эффективно использовать непрерывное латентное пространство для выполнения сложных задач. Результаты экспериментов показывают, что этот подход не только улучшает точность, но и повышает эффективность рассуждений. Будущие исследования должны сосредоточиться на дальнейшей оптимизации методов латентного рассуждения и расширении их применения в более сложных сценариях.
Coconut открывает новые перспективы для разработки более совершенных систем машинного рассуждения и может стать основой для будущих исследований в этой области.