Ай Дайджест - категория iteration

GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

Модели генерации текста в видео продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамических сцен на основе составных текстовых запросов, таких как связывание атрибутов для нескольких объектов, временная динамика, связанная с разными объектами, и взаимодействие между объектами. Наша основная мотивация заключается в том, что сложные задачи можно разложить на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта в сложных целях. Мы предлагаем GenMAC, итеративную многоагентную структуру, которая позволяет составлять текстовую генерацию видео. Совместный рабочий процесс включает три этапа: Дизайн, Генерация и Повторный дизайн, с итеративным циклом между этапами Генерации и Повторного дизайна для постепенной проверки и уточнения созданных видео. Этап Повторного дизайна является самым сложным, его цель - проверить созданные видео, предложить исправления и переработать текстовые запросы, макеты кадра и масштабы руководства для следующей итерации генерации. Чтобы избежать галлюцинации одного агента MLLM, мы разбиваем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложений, агент исправлений и агент структурирования выходных данных. Более того, для решения разнообразных сценариев составной текстовой генерации видео мы разрабатываем механизм самостоятельного маршрутизации для адаптивного выбора подходящего агента исправлений из набора агентов исправлений, каждый из которых специализирован для одного сценария. Обширные эксперименты демонстрируют эффективность GenMAC, достигая лучших результатов в области составной текстовой генерации видео.

2024-12-09dynamics iteration decomposition

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

2024-11-22mdp training iteration