GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

С недавним прогрессом в области генерации видео на основе текста (text-to-video, T2V) стало возможным создавать впечатляющий визуальный контент. Однако, несмотря на достижения, современные модели все еще сталкиваются с трудностями при генерации сложных динамических сцен на основе композиционных текстовых подсказок. Основные проблемы заключаются в правильной генерации множества объектов, их взаимодействий и временных динамик. В этой статье мы рассмотрим новую многоагентную систему под названием GenMAC, которая была разработана для решения этих проблем.

Проблемы существующих моделей

Текущие модели T2V демонстрируют значительные успехи, но они не могут эффективно справляться с сложными текстовыми подсказками, которые требуют генерации множества объектов с их атрибутами и динамикой. Существующие подходы обычно основываются на едином проходе через модель, что приводит к пропуску критически важных деталей и неэффективному соблюдению текстовых подсказок. Это связано с тем, что такие модели не способны к многошаговому планированию и корректировке, что особенно важно для видео.

Проблемы с единственным агентом

Модели, использующие единственный мультимодальный большой языковой модель (MLLM), для исправления несоответствий, сталкиваются с уникальными вызовами. Во-первых, сложность задач, связанных с видео, значительно выше, чем с изображениями, что приводит к галлюцинациям и несоответствиям. Во-вторых, разные текстовые подсказки требуют разнообразных возможностей для обработки различных аспектов композиции, таких как временная и пространственная динамика.

Многоагентный подход

Ключевая идея GenMAC заключается в том, что сложные задачи можно разбить на более простые, которые могут быть выполнены специализированными агентами. Это позволяет нескольким агентам работать совместно, достигая коллективного интеллекта для выполнения сложных целей. GenMAC использует итеративный многоагентный фреймворк, который состоит из трех основных этапов: проектирование (DESIGN), генерация (GENERATION) и редизайн (REDESIGN).

Этапы работы системы

Проектирование (DESIGN): На этом этапе MLLM переводит текстовые подсказки в структурированный макет, который включает в себя расположение объектов и их временные динамики. Это позволяет создать основу для следующего этапа генерации.
Генерация (GENERATION): Используя структурированный макет, модель генерации видео создает визуальный контент, который соответствует заданным текстовым подсказкам и макету.
Редизайн (REDESIGN): Этот этап является наиболее сложным, так как он требует проверки соответствия между сгенерированным видео и текстовыми подсказками, а также внесения необходимых корректировок для следующей итерации генерации.

Итеративный процесс

Этапы генерации и редизайна выполняются в итеративном цикле, что позволяет постепенно улучшать качество видео. На этапе редизайна задача разбивается на несколько подзадач, которые выполняются специализированными агентами, такими как агент проверки, агент предложений, агент коррекции и агент структурирования выходных данных.

Специализированные агенты

Каждый из агентов в системе GenMAC выполняет свою уникальную роль:

Агент проверки (Verification Agent): Проверяет, насколько сгенерированное видео соответствует текстовым подсказкам, анализируя такие аспекты, как наличие объектов, их количество и атрибуты.
Агент предложений (Suggestion Agent): Предлагает корректировки на основе результатов проверки и выбирает подходящего агента коррекции.
Агент коррекции (Correction Agent): Вносит изменения в макет объектов и их динамику, основываясь на предложениях.
Агент структурирования выходных данных (Output Structuring Agent): Форматирует результаты коррекции в структурированный вид, готовый к передаче на следующий этап генерации.

Механизм самонаправления

Для решения разнообразных сценариев композиционной генерации текста в видео был разработан механизм самонаправления, который позволяет адаптивно выбирать подходящего агента коррекции из набора специализированных агентов, каждый из которых отвечает за определенный аспект.

Эксперименты и результаты

В рамках проведенных экспериментов GenMAC продемонстрировала выдающиеся результаты по сравнению с существующими методами. Модель значительно превзошла 17 других моделей T2V в различных аспектах, таких как согласованность атрибутов, динамика и пространственные отношения.

Количественные сравнения

Модель GenMAC показала лучшие результаты в семи ключевых аспектах, включая:

Согласованность атрибутов
Динамическое связывание атрибутов
Пространственные отношения
Связывание движений
Взаимодействия объектов
Генеративная численность

Качественные сравнения

Качественные результаты также подтвердили превосходство GenMAC, продемонстрировав способность точно следовать сложным композиционным подсказкам, включая связывание атрибутов для нескольких объектов и динамику движения.

Заключение

GenMAC представляет собой значительный шаг вперед в области генерации видео на основе текста. Используя многоагентный подход и итеративный процесс, система способна эффективно справляться с сложными задачами композиции, которые ранее были недоступны для существующих моделей. Этот фреймворк открывает новые горизонты для применения в области генерации контента и может стать основой для будущих исследований в этой области.

Статья на arxiv Оригинал pdf generation agents verification

Ай Дайджест