Свежая выжимка ml и AI статей - каждый день
В мире искусственного интеллекта (ИИ) языковые модели (LLMs) продемонстрировали впечатляющие способности в понимании и генерации текста. Однако, несмотря на эти успехи, они часто сталкиваются с трудностями при решении задач, требующих сложных многошаговых рассуждений. Исследователи из Salesforce AI Research предложили новый подход, названный Latent Reasoning Optimization (LaTRO), который позволяет LLMs улучшать свои способности к рассуждению и оценке качества рассуждений без необходимости внешней обратной связи или моделей вознаграждения. В этой статье мы рассмотрим основные концепции и методы, лежащие в основе LaTRO, и как они могут трансформировать способности LLMs к рассуждению.
LaTRO рассматривает процесс рассуждения как выборку из латентного распределения. Это означает, что вместо того, чтобы напрямую генерировать ответы, модель сначала генерирует множество возможных путей рассуждений (рационалов), а затем выбирает наиболее вероятный или качественный из них. Этот подход основан на идее, что хорошие рационалы могут значительно повысить вероятность получения правильного ответа.
Ключевой элемент LaTRO — это самооценка (self-rewarding). Вместо использования внешнего источника для оценки качества рассуждений, модель использует свои собственные вероятностные оценки для определения, насколько хорошо рационал ведет к правильному ответу. Это делается путем вычисления вероятности того, что модель сгенерирует правильный ответ после наблюдения заданного вопроса и рационала.
LaTRO использует вариационные методы для оптимизации латентного распределения рассуждений. Вариационный подход позволяет модели одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений. Это достигается через оптимизацию нижней границы логарифма правдоподобия ответа, который включает в себя как генерацию рационалов, так и их оценку.
Исследование LaTRO было проведено на датасетах GSM8K и ARC-Challenge с использованием нескольких архитектур моделей, таких как Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Результаты показали, что LaTRO значительно улучшает точность ответов моделей без дополнительной тренировки на внешних данных или использования моделей вознаграждения. Например, на GSM8K LaTRO улучшил точность на 12.5% в среднем по сравнению с базовыми моделями и на 9.6% по сравнению с моделями, прошедшими супервизорное обучение.
LaTRO оптимизирует процесс рассуждения, позволяя модели генерировать более качественные рационалы и лучше оценивать их. Это достигается через следующие шаги:
В качестве примера рассмотрим вопрос из GSM8K: "Кайлар пошел в магазин купить стаканы для своей новой квартиры. Один стакан стоит $5, но каждый второй стакан стоит только 60% от цены. Кайлар хочет купить 16 стаканов. Сколько ему нужно заплатить за них?"
Этот пример иллюстрирует, как LaTRO может помочь модели генерировать более точные и краткие ответы, улучшая как качество рассуждений, так и их оценку.
LaTRO представляет собой значительный шаг вперед в улучшении способностей LLMs к рассуждению. Он демонстрирует, что предварительно обученные модели уже обладают латентными возможностями рассуждений, которые могут быть раскрыты и улучшены через оптимизацию в процессе обучения. Этот подход не только повышает точность ответов, но и делает процесс рассуждений более эффективным и адаптируемым к различным задачам без необходимости внешнего вмешательства. LaTRO открывает новые горизонты в области ИИ, где модели могут самоулучшаться, что делает их более полезными и надежными в реальных приложениях.