Обучение больших языковых моделей для рассуждений в непрерывном латентном пространстве
Большие языковые модели (LLM) ограничены в рассуждениях в "языковом пространстве", где они обычно выражают процесс рассуждения с помощью цепочки мыслей (CoT) для решения сложной задачи рассуждения. Однако мы утверждаем, что языковое пространство может не всегда быть оптимальным для рассуждений. Например, большинство словесных токенов в первую очередь предназначены для текстовой логики и не являются необходимыми для рассуждения, в то время как некоторые критически важные токены требуют сложного планирования и представляют собой огромные проблемы для LLM. Чтобы исследовать потенциал рассуждений LLM в неограниченном скрытом пространстве вместо использования естественного языка, мы представляем новую парадигму Кокос (Цепочка Непрерывной Мысли). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывной мыслью"). Вместо того чтобы декодировать это в словесный токен, мы возвращаем его обратно в LLM в качестве последующего вложения ввода непосредственно в непрерывном пространстве. Эксперименты показывают, что Кокос может эффективно дополнять LLM в нескольких задачах рассуждения. Эта новая парадигма скрытого рассуждения приводит к возникновению продвинутых паттернов рассуждения: непрерывная мысль может кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо того чтобы преждевременно фиксироваться на одном детерминированном пути, как это делается в CoT. Кокос превосходит CoT в определенных задачах логического рассуждения, которые требуют значительного возврата во время планирования, с меньшим количеством токенов мыслей во время вывода. Эти результаты демонстрируют перспективность скрытого рассуждения и предлагают ценные идеи для будущих исследований.