Ай Дайджест - категория mdp

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

2024-11-22policy language value