Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

В последние годы наблюдается значительный прогресс в области генерации видео, что открывает новые горизонты для создания интерактивных миро-моделей. Одним из наиболее интересных направлений является концепция "Создание видео по демонстрации" (Video Creation by Demonstration, VCD), которая позволяет пользователям генерировать видео, основываясь на демонстрационном видео и начальном контекстном изображении. Эта статья посвящена представлению нового подхода к генерации видео, основанного на методе, названном δ-Diffusion, который использует самоконтрольное обучение для достижения высококачественных результатов.

Основные концепции

Создание видео по демонстрации

Создание видео по демонстрации представляет собой процесс, в котором пользователи могут предоставить видео с желаемыми действиями и контекстное изображение, чтобы сгенерировать новое видео, которое продолжает действия из демонстрационного видео в новом контексте. Это особенно полезно в ситуациях, когда необходимо представить действия в различных условиях или средах.

Преимущества δ-Diffusion

Метод δ-Diffusion использует подход самоконтрольного обучения, который позволяет модели учиться на неразмеченных видео, предсказывая будущие кадры. Это отличается от традиционных методов, которые требуют наличия четких контрольных сигналов, таких как текстовые подсказки или карты сегментации. Вместо этого δ-Diffusion использует неявные латентные действия, что обеспечивает большую гибкость и выразительность.

Ключевые особенности δ-Diffusion

Извлечение латентных действий: δ-Diffusion использует предварительно обученные модели для извлечения семантических представлений действий из демонстрационных видео, что позволяет минимизировать утечку информации о внешнем виде.
Самоконтрольное обучение: Метод позволяет модели учиться на большом количестве неразмеченных видео, что делает его более масштабируемым по сравнению с традиционными методами, требующими парные данные для обучения.
Генерация видео: Модель принимает контекстное изображение и извлеченные латентные действия в качестве входных данных, что позволяет генерировать видео с реалистичным движением, которое естественно интегрируется с указанными действиями и контекстом.

Связанные работы

Генерация видео

В последние годы было разработано множество методов генерации видео, включая текстово-видео, изображение-видео и комбинированные подходы. Однако большинство из них ограничены в своей способности передавать динамику действий через четкие контрольные сигналы. δ-Diffusion стремится преодолеть эти ограничения, предоставляя более гибкий и интуитивно понятный способ управления созданием видео.

Моделирование движения и действия

Одной из ключевых задач в контексте VCD является эффективное захватывание концепции действия из демонстрационного видео и ее перенос в новый контекст. Традиционные методы, такие как перенаправление действий, часто предполагают определенную степень согласования между исходными и целевыми видео, что не всегда возможно в реальных сценариях.

Модели оснований видео

Появление мощных моделей оснований видео, таких как VideoPrism и InternVideo, открыло новые направления для понимания видео. Эти модели обучаются на огромных наборах данных и способны захватывать как низкоуровневые визуальные признаки, так и высокоуровневые семантические концепции, что делает их идеальными для использования в δ-Diffusion.

Методология

Формулировка задачи

Задача VCD формулируется следующим образом: входными данными являются контекстное изображение и демонстрационное видео, а целью является генерация видео, которое естественно продолжается из контекстного изображения и выполняет действия, представленные в демонстрационном видео.

Обзор δ-Diffusion

δ-Diffusion состоит из двух этапов:

Извлечение латентных действий: Используется предварительно обученная модель для извлечения семантических представлений из демонстрационного видео. Это позволяет получить контрольные латенты с минимальным сохранением информации о внешнем виде.
Генерация видео: На втором этапе обучается модель диффузии, которая предсказывает будущие кадры, основываясь на извлеченных контрольных латентах и контекстном изображении.

Извлечение латентных действий

Извлечение латентных действий осуществляется с помощью предварительно обученной модели, которая обрабатывает демонстрационное видео и извлекает временные семантические представления. Затем применяется модуль "бутылка внешнего вида", который позволяет извлекать действия с минимальным сохранением информации о внешнем виде.

Обучение δ-Diffusion

Модель обучается в самоконтрольном режиме, где контекстное изображение и демонстрационное видео выбираются из одного и того же видео. Это гарантирует согласование действий и контекста, что способствует эффективному обучению модели.

Эксперименты

Дatasets

Эксперименты проводились на трех основных наборах данных: Epic Kitchens 100, Something-Something v2 и Fractal. Эти наборы данных были выбраны из-за их богатого содержания и разнообразия действий, что позволяет продемонстрировать возможности переноса концепций действий.

Оценка

Для оценки результатов использовались как машинные, так и человеческие методы. Машинные оценки проводились с использованием предобученных моделей для количественной оценки качества сгенерированных видео, в то время как человеческие оценки позволяли учитывать субъективные предпочтения.

Результаты

Результаты показали, что δ-Diffusion превосходит существующие методы как по качеству визуализации, так и по способности передавать действия между демонстрационными и сгенерированными видео. Это подтверждается как машинными, так и человеческими оценками, которые подчеркивают высокую степень предпочтения к δ-Diffusion по сравнению с другими подходами.

Заключение

В данной работе представлен новый подход к генерации видео, основанный на концепции "Создание видео по демонстрации". Метод δ-Diffusion демонстрирует значительные преимущества по сравнению с традиционными методами, обеспечивая большую гибкость и выразительность в контроле генерации видео. Несмотря на существующие ограничения, такие как недостаточная физическая реалистичность в сложных сценах, δ-Diffusion открывает новые возможности для создания интерактивных миро-моделей и может стать основой для дальнейших исследований в области генерации видео.

Влияние на общество

Предложенный подход улучшает процесс интерактивного создания видео, предлагая новый опыт, который соединяет абстрактные и детализированные контрольные сигналы. δ-Diffusion демонстрирует возможности моделирования мира, позволяя симулировать возможные эффекты действий на всю сцену.

Потенциальные негативные последствия

Хотя работа не вводит никаких негативных социальных последствий, связанных с контролируемой генерацией видео, важно учитывать возможные риски, такие как укрепление существующих предвзятостей в наборах данных и возможность неправильного использования сгенерированного контента.

В заключение, δ-Diffusion представляет собой многообещающий шаг вперед в области генерации видео, открывая новые горизонты для интерактивных приложений и моделирования мира.

Статья на arxiv Оригинал pdf video generation demonstration

Ай Дайджест

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Основные концепции