Языковые модели как скрытые логики: Раскрытие латентных возможностей рассуждений с помощью самооценки

В мире искусственного интеллекта (ИИ) языковые модели (LLMs) продемонстрировали впечатляющие способности в понимании и генерации текста. Однако, несмотря на эти успехи, они часто сталкиваются с трудностями при решении задач, требующих сложных многошаговых рассуждений. Исследователи из Salesforce AI Research предложили новый подход, названный Latent Reasoning Optimization (LaTRO), который позволяет LLMs улучшать свои способности к рассуждению и оценке качества рассуждений без необходимости внешней обратной связи или моделей вознаграждения. В этой статье мы рассмотрим основные концепции и методы, лежащие в основе LaTRO, и как они могут трансформировать способности LLMs к рассуждению.

Основные концепции LaTRO

Формулирование рассуждений как выборки из латентного распределения

LaTRO рассматривает процесс рассуждения как выборку из латентного распределения. Это означает, что вместо того, чтобы напрямую генерировать ответы, модель сначала генерирует множество возможных путей рассуждений (рационалов), а затем выбирает наиболее вероятный или качественный из них. Этот подход основан на идее, что хорошие рационалы могут значительно повысить вероятность получения правильного ответа.

Самооценка

Ключевой элемент LaTRO — это самооценка (self-rewarding). Вместо использования внешнего источника для оценки качества рассуждений, модель использует свои собственные вероятностные оценки для определения, насколько хорошо рационал ведет к правильному ответу. Это делается путем вычисления вероятности того, что модель сгенерирует правильный ответ после наблюдения заданного вопроса и рационала.

Вариационный подход

LaTRO использует вариационные методы для оптимизации латентного распределения рассуждений. Вариационный подход позволяет модели одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений. Это достигается через оптимизацию нижней границы логарифма правдоподобия ответа, который включает в себя как генерацию рационалов, так и их оценку.

Экспериментальная валидация

Исследование LaTRO было проведено на датасетах GSM8K и ARC-Challenge с использованием нескольких архитектур моделей, таких как Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Результаты показали, что LaTRO значительно улучшает точность ответов моделей без дополнительной тренировки на внешних данных или использования моделей вознаграждения. Например, на GSM8K LaTRO улучшил точность на 12.5% в среднем по сравнению с базовыми моделями и на 9.6% по сравнению с моделями, прошедшими супервизорное обучение.

Практическое применение и результаты

Оптимизация процесса рассуждения

LaTRO оптимизирует процесс рассуждения, позволяя модели генерировать более качественные рационалы и лучше оценивать их. Это достигается через следующие шаги:

Генерация рационалов: Модель генерирует множество рационалов для каждого вопроса.
Оценка рационалов: Каждый рационал оценивается по вероятности того, что он приведет к правильному ответу.
Обучение модели: Параметры модели обновляются, чтобы повысить вероятность генерации высококачественных рационалов.

Примеры и анализ

В качестве примера рассмотрим вопрос из GSM8K: "Кайлар пошел в магазин купить стаканы для своей новой квартиры. Один стакан стоит $5, но каждый второй стакан стоит только 60% от цены. Кайлар хочет купить 16 стаканов. Сколько ему нужно заплатить за них?"

Базовая модель: Модель не завершает рассуждение, оставляя вопрос без ответа.
LaTRO: Модель генерирует краткий и правильный ответ, показывая, что Кайлару нужно заплатить $64.

Этот пример иллюстрирует, как LaTRO может помочь модели генерировать более точные и краткие ответы, улучшая как качество рассуждений, так и их оценку.

Заключение

LaTRO представляет собой значительный шаг вперед в улучшении способностей LLMs к рассуждению. Он демонстрирует, что предварительно обученные модели уже обладают латентными возможностями рассуждений, которые могут быть раскрыты и улучшены через оптимизацию в процессе обучения. Этот подход не только повышает точность ответов, но и делает процесс рассуждений более эффективным и адаптируемым к различным задачам без необходимости внешнего вмешательства. LaTRO открывает новые горизонты в области ИИ, где модели могут самоулучшаться, что делает их более полезными и надежными в реальных приложениях.

Статья на arxiv Оригинал pdf training self-improvement optimization

Ай Дайджест