Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM
Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.