Ай Дайджест - категория self-improvement

Языковые модели как скрытые логики: Раскрытие латентных возможностей рассуждений с помощью самооценки

Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности, но всё ещё испытывают трудности с задачами сложного рассуждения, требующими нескольких шагов. Хотя методы, основанные на подсказках, такие как Цепочка мыслей (CoT), могут улучшить способности LLM к рассуждению во время вывода, оптимизация способностей к рассуждению во время обучения остаётся сложной задачей. Мы представляем Оптимизацию латентного рассуждения (LaTRO), принципиальную структуру, которая формулирует рассуждение как выборку из латентного распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как процесс рассуждения, так и способность оценивать качество рассуждений без необходимости внешней обратной связи или моделей вознаграждения. Мы проверили LaTRO на экспериментах с наборами данных GSM8K и ARC-Challenge, используя несколько архитектур моделей. На GSM8K, LaTRO улучшает нулевой точность на 12.5% по сравнению с базовыми моделями и на 9.6% по сравнению с надзорной настройкой для моделей Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты указывают на то, что предобученные LLM обладают скрытыми способностями к рассуждению, которые можно раскрыть и улучшить с помощью нашего предложенного подхода к оптимизации в рамках самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.

2024-11-11training latent llms