Сжатая цепочка размышлений: эффективное рассуждение через плотные представления

В последние годы в области обработки естественного языка (NLP) наблюдается значительный прогресс благодаря использованию больших языковых моделей (LLM). Одним из наиболее интересных подходов к улучшению способностей рассуждения LLM является метод цепочки размышлений (Chain-of-Thought, CoT). Этот метод позволяет моделям имитировать процесс "размышления вслух", разбивая сложные задачи на более простые шаги. Однако использование CoT часто приводит к увеличению времени генерации ответов, что может быть критичным в реальных приложениях.

В данной статье мы рассмотрим новую концепцию, предложенную в недавней работе, под названием "Сжатая цепочка размышлений" (Compressed Chain-of-Thought, CCoT). Этот подход направлен на улучшение производительности LLM в задачах рассуждения, снижая при этом время генерации.

Цепочка размышлений (CoT)

Метод CoT позволяет языковым моделям улучшать свои способности к рассуждению, разбивая сложные вопросы на более простые и последовательно обрабатывая каждый шаг. Этот подход может быть реализован через дообучение на специализированных наборах данных или с помощью обратной связи от человека. Однако, несмотря на его эффективность, CoT требует значительных вычислительных ресурсов и времени на генерацию, что может быть неприемлемо для многих приложений.

Проблемы CoT

Одной из основных проблем, связанных с CoT, является высокая латентность генерации. Например, модель GPT-4 может занять более 21 секунды для генерации ответа с использованием CoT, в то время как без него она может ответить за 2.81 секунды. Это серьезное ограничение для применения LLM в реальном времени.

Концепция контемпляционных токенов

Для решения проблемы высокой латентности были предложены альтернативные методы, использующие так называемые контемпляционные токены (contemplation tokens). Эти токены представляют собой дополнительные токены, которые используются для введения онлайн-памяти и позволяют модели выполнять дополнительные вычисления во время вывода. В отличие от явной цепочки размышлений, контемпляционные токены могут быть использованы для создания более сжатых представлений размышлений.

Контемпляционные токены: содержание и формат

Контемпляционные токены могут быть как содержательными, так и несодержательными. Содержательные токены имеют семантическое значение и могут представлять собой цепочки размышлений, тогда как несодержательные токены не содержат информации и используются в основном для увеличения вычислительных возможностей модели.

Сжатая цепочка размышлений (CCoT)

CCoT предлагает новый подход к генерации контемпляционных токенов, которые являются сжатыми представлениями явных цепей размышлений. Этот метод позволяет моделям LLM использовать контемпляционные токены для улучшения рассуждений, сохраняя при этом эффективность генерации.

Преимущества CCoT

Улучшение производительности: CCoT позволяет моделям достигать более высокой точности в задачах рассуждения, используя плотные представления контемпляционных токенов.
Адаптивность: Модель может контролировать количество генерируемых контемпляционных токенов, что позволяет настраивать соотношение между производительностью и эффективностью в зависимости от конкретной задачи.
Сжатие вычислений: CCoT снижает количество вычислений, необходимых для генерации ответов, что делает его более эффективным по сравнению с традиционными методами.

Подход к обучению CCoT

Обучение CCoT включает два основных этапа: генерацию контемпляционных токенов и декодирование ответов.

Генерация контемпляционных токенов

На первом этапе CCoT обучается генерировать контемпляционные токены, которые представляют собой сжатые версии полных цепей размышлений. Это достигается путем предобучения модели на наборе данных, содержащем полные цепи размышлений и соответствующие ответы. Обучение осуществляется с использованием метода "учительского принуждения", что позволяет модели научиться эффективно генерировать контемпляционные токены.

Декодирование ответов

На втором этапе модель обучается декодировать ответы, используя как исходный запрос, так и сгенерированные контемпляционные токены. Это позволяет модели использовать дополнительные вычислительные ресурсы, предоставляемые контемпляционными токенами, для улучшения качества ответов.

Эксперименты и результаты

Для оценки эффективности CCoT были проведены эксперименты на наборе данных GSM8K, который содержит задачи на рассуждение. Результаты показали, что модели, использующие CCoT, значительно превосходят базовые модели как по точности, так и по времени генерации.

Сравнение с другими методами

В сравнении с другими методами, такими как PAUSE, CCoT продемонстрировала лучшие результаты в задачах рассуждения, обеспечивая более высокую точность при меньшем времени генерации. Это подчеркивает важность использования плотных контемпляционных токенов для достижения лучших результатов в задачах, требующих рассуждения.

Заключение

Сжатая цепочка размышлений (CCoT) представляет собой значительный шаг вперед в области обработки естественного языка, позволяя языковым моделям эффективно рассуждать, минимизируя при этом время генерации. Использование контемпляционных токенов обеспечивает модели дополнительные вычислительные ресурсы, что позволяет достигать более высоких результатов в задачах рассуждения. Этот подход открывает новые горизонты для применения LLM в реальных сценариях, где время и точность имеют критическое значение.

Статья на arxiv Оригинал pdf accuracy decoding inference

Ай Дайджест