Свежая выжимка ml и AI статей - каждый день
В современной эре машинного обучения и искусственного интеллекта (AI) представления видео играют ключевую роль в понимании и анализе визуального контента. В последние годы большое внимание уделялось разработке методов для обучения моделей на основе самообучения (self-supervised learning, SSL), которые могут эффективно использовать большие объемы данных без необходимости вручную размечать каждый кадр. В данной статье мы рассмотрим инновационный подход, предложенный исследователями из Шанхайского Технологического Университета, Meta AI и Калифорнийского Университета в Беркли, который позволяет обучать полезные видео представления без использования натуральных видео.
Масштабные данные являются фундаментальной составляющей для обучения нейронных сетей в различных областях, таких как обработка естественного языка (NLP) и компьютерное зрение. В NLP уже достигнуты значительные успехи с помощью методов самообучения, таких как маскированное моделирование (Devlin et al., 2019) или предсказание следующего токена (Radford et al., 2018; Brown et al., 2020). Однако, в области видео, несмотря на существование больших датасетов и применение аналогичных методов SSL, улучшения в понимании видео (например, распознавание действий) остаются относительно скромными.
Одной из гипотез, объясняющих ограниченный успех SSL в видео, является неэффективное использование натуральных видео данных для обучения полезных представлений. Исследователи задались вопросом, действительно ли натуральные видео необходимы для достижения высокой производительности в задачах понимания видео, аналогичной той, что достигается с использованием современных методов SSL.
Исследователи предложили прогрессию простых синтетических генераторов видео, которые моделируют постепенно увеличивающийся набор свойств натуральных видео:
Для оценки эффективности предложенного подхода использовалась модель VideoMAE (Wang et al., 2023), которая обучалась на каждом из синтетических датасетов и затем оценивалась на задачах распознавания действий, таких как классификация на UCF101 и HMDB51.
Модель, обученная на последнем датасете прогрессии с использованием обрезков из ImageNet, достигла производительности, сопоставимой или превосходящей модель, обученную на натуральных видео UCF101. Это означает, что 97.2% разрыва в производительности между обучением с нуля и SSL на натуральных видео было закрыто.
На этом датасете последние модели в прогрессии также показали лучшие результаты, чем модель, обученная на UCF101, что подтверждает эффективность предложенного подхода.
Здесь модель, обученная на синтетических данных, закрыла 86.5% разрыва между моделями, обученными с нуля и с использованием SSL на натуральных видео.
На датасете UCF101-P модели, обученные на синтетических данных, показали лучшие результаты в 11 из 14 задач, что свидетельствует о большей устойчивости к изменениям в распределении данных по сравнению с моделями, обученными на натуральных видео.
Исследователи также провели анализ низкоуровневых свойств синтетических датасетов, чтобы определить, какие аспекты данных коррелируют с улучшенной производительностью:
Предложенный подход к обучению видео представлений без использования натуральных видео не только подтверждает возможность достижения высокой производительности с использованием синтетических данных, но и предоставляет более контролируемую и прозрачную альтернативу традиционным методам курирования видео данных. Это исследование открывает новые горизонты для разработки методов SSL в видео, предлагая пути для улучшения понимания видео через моделирование ключевых свойств натуральных видео в синтетических датасетах.