Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

В последние годы наблюдается значительный прогресс в области генерации изображений и видео, благодаря разработке таких технологий, как вариационные автоэнкодеры (VAEs), генеративно-состязательные сети (GANs), векторно-квантованные (VQ) подходы и модели диффузии. Эти достижения привели к появлению новых исследований в области генерации видео, где модели не только создают статические изображения, но и моделируют динамику и кинематику реальных сцен. Однако с ростом количества и разнообразия видео-генеративных моделей возникла необходимость в эффективных методах их оценки.

Зачем нужен VBench++?

Оценка качества генерируемых видео должна соответствовать человеческому восприятию, предоставляя надежные измерения производительности моделей. Кроме того, она должна выявлять сильные и слабые стороны каждой модели, предоставляя ценные сведения для дальнейшего развития в области видео-генерации.

Основные проблемы существующих метрик:

Несоответствие человеческому восприятию: Метрики, такие как Inception Score (IS), Fréchet Inception Distance (FID), Fréchet Video Distance (FVD) и CLIPSIM, часто не совпадают с человеческими оценками.
Ограниченность в оценке: Методы оценки качества видео (VQA) разработаны в основном для реальных видео и не учитывают специфические проблемы, возникающие при генерации видео, такие как артефакты в синтезированных видео.

Что такое VBench++?

VBench++ представляет собой комплексный бенчмарк для оценки видео-генеративных моделей, который решает вышеупомянутые проблемы. Он включает в себя:

Многоаспектные измерения: VBench++ оценивает модели по 16 различным измерениям, таким как несоответствие идентичности субъекта, плавность движения, временное мерцание, пространственные отношения и т.д. Это позволяет выявлять специфические сильные и слабые стороны каждой модели.
Соответствие человеческому восприятию: Бенчмарк включает в себя набор данных с аннотациями предпочтений человека для каждого измерения, что позволяет проверить, насколько хорошо автоматические оценки соответствуют человеческому восприятию.
Ценные инсайты: VBench++ предоставляет анализ текущих возможностей моделей по различным типам контента и исследует разрыв между моделями генерации изображений и видео.
Универсальность: Поддержка оценки различных задач видео-генерации, включая текст-в-видео и изображение-в-видео. Введение высококачественного набора изображений с адаптивным соотношением сторон для справедливой оценки.
Доверие к моделям: Помимо технического качества, VBench++ оценивает доверие к моделям, включая их способность генерировать содержание, которое справедливо по отношению к различным культурам и демографическим группам, а также избегать создания вредного или оскорбительного контента.
Открытый доступ: Все компоненты VBench++ (промпты, методы оценки, сгенерированные видео, аннотации предпочтений человека) открыты для общественного доступа, а также постоянно добавляются новые модели видео-генерации на лидборд VBench++.

Заключение

VBench++ представляет собой значительный шаг вперед в оценке видео-генеративных моделей, предоставляя детальный, многоаспектный и согласованный с человеческим восприятием подход к оценке. Это позволяет не только оценить текущие достижения, но и направить будущие исследования в области видео-генерации, делая её более точной, надежной и этичной.

Статья на arxiv Оригинал pdf generation dimensions models

Ай Дайджест

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Зачем нужен VBench++?

Основные проблемы существующих метрик:

Что такое VBench++?

Заключение