Изучение видео представлений без использования натуральных видео
В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.