AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Визуальные эффекты (VFX) стали неотъемлемой частью современного кинематографа, рекламы, симуляций, AR/VR и многих других областей. Они позволяют создавать фотореалистичные изображения, которые невозможно или слишком дорого снимать в реальной жизни. Однако, несмотря на значительные достижения в графике, компьютерном зрении и физическом моделировании, создание VFX остается трудоемким, сложным и дорогим процессом, требующим высокой квалификации и специализированного программного обеспечения. Это делает VFX недоступными для большинства пользователей.

В этой статье мы представляем AutoVFX — инновационный подход к созданию визуальных эффектов, который автоматически генерирует реалистичные и динамичные VFX-видео из одного исходного видео и инструкций на естественном языке. AutoVFX объединяет в себе нейронное моделирование сцен, генерацию кода с помощью LLM (Large Language Models) и физическое моделирование, чтобы предоставить пользователям возможность создавать физически обоснованные, фотореалистичные визуальные эффекты, контролируемые простыми языковыми инструкциями.

Основные концепции AutoVFX

1. Нейронное моделирование сцены

Первым шагом в AutoVFX является создание детализированной 3D модели сцены из исходного видео. Это включает в себя:

Геометрию: Использование методов, таких как SfM (Structure from Motion) и BakedSDF для восстановления геометрии сцены в виде треугольной сетки. Это позволяет точно вставлять, удалять или модифицировать объекты в сцене.
Внешний вид: Использование методов, таких как Gaussian Splatting и SuGaR для воспроизведения внешнего вида сцены, включая текстуры, цвета и освещение, что обеспечивает фотореалистичность.
Семантику: Определение и сегментация объектов в сцене с помощью моделей, таких как Grounding SAM, для понимания и манипулирования конкретными элементами сцены.
Освещение: Оценка освещения сцены с помощью методов, таких как DiffusionLight, для создания реалистичных теней и отражений.

2. Генерация кода с помощью LLM

AutoVFX использует LLM для преобразования языковых инструкций в программы на Python, которые вызывают функции для редактирования сцены. Это позволяет:

Автоматизировать процесс редактирования: Пользователи могут описать желаемые изменения в сцене на естественном языке, и система сгенерирует соответствующий код для выполнения этих изменений.
Обеспечить точность и контроль: Программы, генерируемые LLM, точно соответствуют инструкциям пользователя, обеспечивая высокую степень контроля над процессом редактирования.

3. Физическое моделирование и визуальные эффекты

Для создания динамичных и физически реалистичных эффектов AutoVFX интегрирует:

Физическое взаимодействие: Использование физических симуляторов, таких как Blender, для моделирования реалистичного поведения объектов, включая столкновения, разрушения, динамику жидкостей и частиц.
Визуальные эффекты: Поддержка широкого спектра VFX, включая изменение материалов, добавление огня, дыма, анимации персонажей и многое другое.

4. Рендеринг и композиция

После моделирования и редактирования сцены, AutoVFX выполняет:

Рендеринг: Использование физически обоснованного рендеринга для создания изображений, которые выглядят как настоящие.
Композицию: Смешивание отредактированных элементов с исходным видео, учитывая тени, отражения и другие визуальные аспекты для достижения безупречной интеграции.

Примеры использования

"Сделать вазу зеркальной": AutoVFX изменит материал вазы, чтобы она отражала окружающую среду.
"Увеличить вазу и уронить её": Система увеличит размер вазы и смоделирует её падение, учитывая физические законы.
"Бросить огненный баскетбольный мяч в вазу": AutoVFX добавит анимацию мяча, который летит к вазе, оставляя след огня.
"Вставить анимационного Пикачу на стол": Система вставит модель Пикачу, который будет двигаться по столу.

Заключение

AutoVFX представляет собой прорыв в области создания визуальных эффектов, делая их доступными и управляемыми для широкого круга пользователей. Интеграция нейронного моделирования, генерации кода на основе LLM и физического симулирования позволяет создавать сложные, динамичные и физически правдоподобные VFX-видео из простых языковых инструкций. Это не только упрощает процесс создания VFX, но и расширяет возможности творчества, делая визуальные эффекты более демократичными и доступными для всех.

Статья на arxiv Оригинал pdf generative simulation neural

Ай Дайджест