Свежая выжимка ml и AI статей - каждый день
В последние годы в области обработки естественного языка (NLP) наблюдается значительный прогресс благодаря использованию больших языковых моделей (LLM). Одним из наиболее интересных подходов к улучшению способностей рассуждения LLM является метод цепочки размышлений (Chain-of-Thought, CoT). Этот метод позволяет моделям имитировать процесс "размышления вслух", разбивая сложные задачи на более простые шаги. Однако использование CoT часто приводит к увеличению времени генерации ответов, что может быть критичным в реальных приложениях.
В данной статье мы рассмотрим новую концепцию, предложенную в недавней работе, под названием "Сжатая цепочка размышлений" (Compressed Chain-of-Thought, CCoT). Этот подход направлен на улучшение производительности LLM в задачах рассуждения, снижая при этом время генерации.
Метод CoT позволяет языковым моделям улучшать свои способности к рассуждению, разбивая сложные вопросы на более простые и последовательно обрабатывая каждый шаг. Этот подход может быть реализован через дообучение на специализированных наборах данных или с помощью обратной связи от человека. Однако, несмотря на его эффективность, CoT требует значительных вычислительных ресурсов и времени на генерацию, что может быть неприемлемо для многих приложений.
Одной из основных проблем, связанных с CoT, является высокая латентность генерации. Например, модель GPT-4 может занять более 21 секунды для генерации ответа с использованием CoT, в то время как без него она может ответить за 2.81 секунды. Это серьезное ограничение для применения LLM в реальном времени.
Для решения проблемы высокой латентности были предложены альтернативные методы, использующие так называемые контемпляционные токены (contemplation tokens). Эти токены представляют собой дополнительные токены, которые используются для введения онлайн-памяти и позволяют модели выполнять дополнительные вычисления во время вывода. В отличие от явной цепочки размышлений, контемпляционные токены могут быть использованы для создания более сжатых представлений размышлений.
Контемпляционные токены могут быть как содержательными, так и несодержательными. Содержательные токены имеют семантическое значение и могут представлять собой цепочки размышлений, тогда как несодержательные токены не содержат информации и используются в основном для увеличения вычислительных возможностей модели.
CCoT предлагает новый подход к генерации контемпляционных токенов, которые являются сжатыми представлениями явных цепей размышлений. Этот метод позволяет моделям LLM использовать контемпляционные токены для улучшения рассуждений, сохраняя при этом эффективность генерации.
Обучение CCoT включает два основных этапа: генерацию контемпляционных токенов и декодирование ответов.
На первом этапе CCoT обучается генерировать контемпляционные токены, которые представляют собой сжатые версии полных цепей размышлений. Это достигается путем предобучения модели на наборе данных, содержащем полные цепи размышлений и соответствующие ответы. Обучение осуществляется с использованием метода "учительского принуждения", что позволяет модели научиться эффективно генерировать контемпляционные токены.
На втором этапе модель обучается декодировать ответы, используя как исходный запрос, так и сгенерированные контемпляционные токены. Это позволяет модели использовать дополнительные вычислительные ресурсы, предоставляемые контемпляционными токенами, для улучшения качества ответов.
Для оценки эффективности CCoT были проведены эксперименты на наборе данных GSM8K, который содержит задачи на рассуждение. Результаты показали, что модели, использующие CCoT, значительно превосходят базовые модели как по точности, так и по времени генерации.
В сравнении с другими методами, такими как PAUSE, CCoT продемонстрировала лучшие результаты в задачах рассуждения, обеспечивая более высокую точность при меньшем времени генерации. Это подчеркивает важность использования плотных контемпляционных токенов для достижения лучших результатов в задачах, требующих рассуждения.
Сжатая цепочка размышлений (CCoT) представляет собой значительный шаг вперед в области обработки естественного языка, позволяя языковым моделям эффективно рассуждать, минимизируя при этом время генерации. Использование контемпляционных токенов обеспечивает модели дополнительные вычислительные ресурсы, что позволяет достигать более высоких результатов в задачах рассуждения. Этот подход открывает новые горизонты для применения LLM в реальных сценариях, где время и точность имеют критическое значение.