Изучение видео представлений без использования натуральных видео

В современной эре машинного обучения и искусственного интеллекта (AI) представления видео играют ключевую роль в понимании и анализе визуального контента. В последние годы большое внимание уделялось разработке методов для обучения моделей на основе самообучения (self-supervised learning, SSL), которые могут эффективно использовать большие объемы данных без необходимости вручную размечать каждый кадр. В данной статье мы рассмотрим инновационный подход, предложенный исследователями из Шанхайского Технологического Университета, Meta AI и Калифорнийского Университета в Беркли, который позволяет обучать полезные видео представления без использования натуральных видео.

Масштабные данные являются фундаментальной составляющей для обучения нейронных сетей в различных областях, таких как обработка естественного языка (NLP) и компьютерное зрение. В NLP уже достигнуты значительные успехи с помощью методов самообучения, таких как маскированное моделирование (Devlin et al., 2019) или предсказание следующего токена (Radford et al., 2018; Brown et al., 2020). Однако, в области видео, несмотря на существование больших датасетов и применение аналогичных методов SSL, улучшения в понимании видео (например, распознавание действий) остаются относительно скромными.

Одной из гипотез, объясняющих ограниченный успех SSL в видео, является неэффективное использование натуральных видео данных для обучения полезных представлений. Исследователи задались вопросом, действительно ли натуральные видео необходимы для достижения высокой производительности в задачах понимания видео, аналогичной той, что достигается с использованием современных методов SSL.

Методология

Прогрессия генеративных моделей

Исследователи предложили прогрессию простых синтетических генераторов видео, которые моделируют постепенно увеличивающийся набор свойств натуральных видео:

Статические круги: Начальный датасет состоит из статических изображений с наложенными кругами, которые копируются несколько раз для создания видео.
Движущиеся круги: Введение движения кругов по случайным траекториям.
Движущиеся формы: Замена кругов на различные геометрические формы, такие как квадраты и треугольники.
Движущиеся и трансформирующиеся формы: Введение изменений в формах, таких как масштабирование, вращение и сдвиг.
Ускоряющиеся и трансформирующиеся формы: Добавление ускорения к движению форм.
Ускоряющиеся и трансформирующиеся текстуры: Замена сплошных цветов на текстуры для более реалистичного визуального представления.
Ускоряющиеся и трансформирующиеся обрезки изображений: Использование обрезков из натуральных изображений для создания видео.

Обучение и оценка

Для оценки эффективности предложенного подхода использовалась модель VideoMAE (Wang et al., 2023), которая обучалась на каждом из синтетических датасетов и затем оценивалась на задачах распознавания действий, таких как классификация на UCF101 и HMDB51.

Протокол обучения

Архитектура модели: Использовалась модель VideoMAE, которая применяет маскированное автоэнкодирование для обучения на видео.
Размеры датасетов: Для всех генеративных моделей, использующих текстуры или обрезки изображений, создавались датасеты размером, сравнимым с UCF101. Для остальных датасетов, чтобы избежать переобучения, данные генерировались на лету.
Базовые модели: Сравнение проводилось с моделями, обученными на натуральных видео (UCF101) и моделями, обученными с нуля.

Протокол оценки

UCF101 и HMDB51: Эти датасеты использовались для оценки производительности модели на задачах распознавания действий.
Kinetics-400: Для более широкой оценки использовался также датасет Kinetics-400.
UCF101-P: Для проверки устойчивости к изменениям в распределении данных использовался датасет UCF101-P с различными синтетическими искажениями.

Результаты

Производительность на UCF101

Модель, обученная на последнем датасете прогрессии с использованием обрезков из ImageNet, достигла производительности, сопоставимой или превосходящей модель, обученную на натуральных видео UCF101. Это означает, что 97.2% разрыва в производительности между обучением с нуля и SSL на натуральных видео было закрыто.

Производительность на HMDB51

На этом датасете последние модели в прогрессии также показали лучшие результаты, чем модель, обученная на UCF101, что подтверждает эффективность предложенного подхода.

Производительность на Kinetics-400

Здесь модель, обученная на синтетических данных, закрыла 86.5% разрыва между моделями, обученными с нуля и с использованием SSL на натуральных видео.

Устойчивость к изменениям распределения данных

На датасете UCF101-P модели, обученные на синтетических данных, показали лучшие результаты в 11 из 14 задач, что свидетельствует о большей устойчивости к изменениям в распределении данных по сравнению с моделями, обученными на натуральных видео.

Анализ свойств датасетов

Исследователи также провели анализ низкоуровневых свойств синтетических датасетов, чтобы определить, какие аспекты данных коррелируют с улучшенной производительностью:

Разнообразие кадров: Более разнообразные датасеты показали лучшую производительность.
Схожесть с натуральными данными: Датасеты, более похожие на натуральные видео по цветовому пространству и структуре, давали лучшие результаты.
Динамика: Введение динамики в видео (движение, ускорение) значительно улучшало производительность модели.

Заключение

Предложенный подход к обучению видео представлений без использования натуральных видео не только подтверждает возможность достижения высокой производительности с использованием синтетических данных, но и предоставляет более контролируемую и прозрачную альтернативу традиционным методам курирования видео данных. Это исследование открывает новые горизонты для разработки методов SSL в видео, предлагая пути для улучшения понимания видео через моделирование ключевых свойств натуральных видео в синтетических датасетах.

Статья на arxiv Оригинал pdf pre-training synthetic correlation

Ай Дайджест