Ай Дайджест - категория narrative

VideoGen-of-Thought: Коллаборативная структура для многослойной генерации видео

Текущие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многосъемочных, аналогичных фильмам видео. Существующие модели, обученные на данных большого масштаба с использованием мощных вычислительных ресурсов, неудивительно, что оказываются недостаточными для поддержания логического повествования и визуальной согласованности между несколькими кадрами связного сценария, так как они часто обучаются с целью одного кадра. С этой целью мы предлагаем VideoGen-of-Thought (VGoT), совместную архитектуру без обучения, разработанную специально для многосъемочной генерации видео. VGoT разработан с тремя целями: Генерация многосъемочного видео: мы делим процесс генерации видео на структурированную, модульную последовательность, включающую (1) Генерацию сценария, которая переводит краткую историю в детализированные подсказки для каждого кадра; (2) Генерацию ключевых кадров, ответственную за создание визуально согласованных ключевых кадров, верных изображению персонажей; и (3) Генерацию видео на уровне кадра, которая преобразует информацию из сценариев и ключевых кадров в кадры; (4) Механизм сглаживания, который обеспечивает согласованный многосъемочный результат. Разумный дизайн повествования: вдохновленный сценарным письмом для кино, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую согласованность, развитие персонажей и поток повествования на протяжении всего видео. Согласованность между кадрами: мы обеспечиваем временную и идентичностную согласованность, используя эмбеддинги, сохраняющие идентичность (IP), между кадрами, которые автоматически создаются из повествования. Кроме того, мы интегрируем механизм сглаживания между кадрами, который включает границу сброса, эффективно объединяющую латентные признаки соседних кадров, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты демонстрируют, что VGoT превосходит существующие методы генерации видео в производстве высококачественных, согласованных многосъемочных видео.

2024-12-04consistency training embedding