Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Видео Гауссово Разбрызгивание (VeGaS) представляет собой инновационную модель, разработанную для обработки видео данных с использованием нейронных сетей и гауссовых распределений. В данной статье мы рассмотрим основные концепции и методы, лежащие в основе VeGaS, а также их практическое применение и результаты экспериментов.

Основные Концепции

Имплицитные Нейронные Представления (INRs)

Имплицитные нейронные представления (INRs) используются для аппроксимации дискретных данных в виде непрерывных функций. В контексте видео, такие модели преобразуют координаты пикселей и временные метки кадров в значения RGB, что позволяет эффективно сжимать видео, но не подходит для его редактирования.

3D Гауссово Разбрызгивание (3DGS)

3DGS изначально предназначен для моделирования 3D сцен, но был адаптирован для работы с 2D изображениями и видео. В этом подходе видео рассматривается как серия параллельных плоскостей в 3D пространстве, где каждый кадр моделируется с помощью 2D гауссиан, полученных путем условного распределения 3D гауссиан.

Folded-Gaussians

VeGaS вводит новую концепцию - Folded-Gaussians, семейство функций, которые могут моделировать нелинейные структуры в видео потоке. Эти функции позволяют создавать классические 2D гауссианы после условного распределения, что делает их идеальными для представления динамики видео.

Архитектура VeGaS

VeGaS использует следующие ключевые элементы:

Диагональные 3D Гауссианы: Начальный шаг включает использование диагональных 3D гауссиан для представления каждого кадра видео.
Динамическая подгонка кадров и сворачивание гауссиан: Для аппроксимации нелинейных структур в видео потоке используются динамические кадровые подгонки и сворачивание гауссиан.
Условное распределение: Каждый кадр моделируется с помощью 2D гауссиан, полученных путем условного распределения 3D Folded-Gaussians в момент времени (t_i).

Эксперименты и Результаты

Наборы Данных

Для оценки эффективности VeGaS использовались два набора данных: Bunny и DAVIS. Bunny содержит 132 кадра с разрешением 720x1280, а DAVIS - это набор высококачественных видео для сегментации объектов.

Инициализация и Обучение

Инициализация: Гауссианы инициализируются равномерно в пределах 2D ограничивающей рамки.
Активационные функции: Используются сигмоидальные функции для временных переменных и экспоненциальные функции для параметров шума.
Обучение: Модель обучается в течение 30,000 шагов с размером пакета 3, используя полиномиальную функцию степени 7 и 500,000 начальных гауссиан.

Восстановление Кадров

VeGaS показал превосходные результаты в задачах восстановления кадров, превзойдя другие современные решения по метрикам PSNR и SSIM.

Интерполяция Кадров

Модель позволяет создавать дополнительные кадры между существующими, обеспечивая плавный переход и высокое качество изображения.

Редактирование Видео

VeGaS позволяет проводить как глобальные изменения в видео, так и локальные редактирования отдельных объектов или кадров, что делает его мощным инструментом для видео обработки.

Заключение

VeGaS представляет собой значительный шаг вперед в области обработки видео, предлагая новые методы для моделирования и редактирования видео данных. Использование Folded-Gaussians и адаптация 3DGS для 2D видео открывает новые возможности для создания высококачественных видео и их манипуляций. Эксперименты подтверждают, что VeGaS не только улучшает качество восстановления кадров, но и позволяет проводить сложные операции редактирования, делая его полезным инструментом для различных приложений в области компьютерного зрения и обработки видео.

Статья на arxiv Оригинал pdf networks reconstruction compression

Ай Дайджест