Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей
Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.