VideoICL: Новая эра в понимании видео с помощью итеративного обучения в контексте

В последние годы наблюдается значительный прогресс в области больших мультимодальных моделей (LMMs), которые продемонстрировали улучшенные способности к пониманию и анализу видео. Эти модели могут обрабатывать сложные задачи, такие как понимание естественных сцен и ответ на причинно-следственные вопросы. Тем не менее, существует серьезная проблема: производительность этих моделей значительно снижается при работе с видео, которые являются "вне распределения" (OOD), то есть с видео, недостаточно представленными в обучающих данных. В данной статье мы рассмотрим новую методику, предложенную в работе "VideoICL", которая направлена на решение этой проблемы.

Проблематика OOD-видео

Одной из основных причин, по которой LMMs не справляются с OOD-видео, является недостаточная репрезентация таких данных во время обучения. Например, модели могут легко различать хорошо представленные действия, такие как "танцы" или "упражнения", но сталкиваются с трудностями, когда дело касается более редких действий, таких как "преступление". Это связано с тем, что видео, демонстрирующие такие действия, редко включаются в обучающие наборы данных.

Традиционные методы, такие как дообучение на OOD-данных, не всегда практичны из-за высоких вычислительных затрат. Поэтому в последние годы исследователи начали изучать альтернативные подходы, такие как обучение в контексте (ICL), которое позволяет моделям адаптироваться к новым задачам без необходимости в дообучении.

Обучение в контексте (ICL)

Обучение в контексте (ICL) представляет собой метод, при котором модели предоставляются примеры вместе с тестовыми образцами во время вывода. Этот подход продемонстрировал высокую эффективность в задачах, связанных только с текстом и изображениями, но его применение к видео-языковым задачам сталкивается с определенными трудностями. Основная проблема заключается в том, что видео-токены значительно длиннее, чем текстовые или изображенческие токены, что ограничивает количество видео-примеров, которые можно использовать в одном контексте.

Для решения этой проблемы в статье предлагается новая методология под названием VideoICL, которая включает стратегию выбора релевантных примеров на основе сходства и итеративный подход к выводу, основанный на уверенности. Это позволяет выбирать наиболее релевантные примеры и ранжировать их по степени сходства для использования в процессе вывода.

Методология VideoICL

Выбор примеров на основе сходства

Первым шагом в методологии VideoICL является выбор определенного числа (k) примеров для конкретного запроса. Примеры выбираются из набора данных на основе их релевантности запросу. Для этого используется линейная комбинация косинусных сходств между векторными представлениями запроса и примеров. Это позволяет выбрать наиболее подходящие примеры для дальнейшего анализа.

Итеративный вывод на основе уверенности

Следующим этапом является итеративный вывод, в котором модель генерирует ответ на основе выбранных примеров. На каждом шаге модель оценивает уверенность в своем ответе, и если она недостаточно высока, происходит выбор новых примеров и повторный вывод. Этот процесс продолжается до тех пор, пока не будет достигнут уровень уверенности, достаточный для генерации точного ответа.

Оценка уверенности

Для оценки уверенности в ответах используется минимальная вероятность токенов, что позволяет более точно определить, насколько уверенно модель отвечает на запрос. Это обеспечивает более надежные результаты и уменьшает количество ошибок.

Экспериментальные результаты

В ходе экспериментов методология VideoICL была протестирована на нескольких наборах данных OOD, включая задачи многократного выбора, открытого вопроса, классификации видео и создания аннотаций к видео. Результаты показали значительное улучшение производительности по сравнению с традиционными методами, особенно в специфических доменных сценариях.

Сравнение с базовыми моделями

VideoICL продемонстрировала среднее улучшение на 25.6% в задачах вопросов и ответов, а также прирост BLEU-4 на 0.143 в задачах создания аннотаций к видео. Особенно примечательно, что методология, использующая модель с 7 миллиардами параметров, превзошла модели с 72 миллиардами параметров в условиях нулевого обучения.

Заключение

Методология VideoICL представляет собой важный шаг вперед в области понимания видео с использованием больших мультимодальных моделей. Она предлагает эффективное решение для работы с OOD-видео, позволяя моделям адаптироваться к новым задачам без необходимости в дообучении. Результаты экспериментов подтверждают эффективность этой методологии и открывают новые перспективы для дальнейших исследований в области видео в контексте обучения.

VideoICL закладывает основу для более широкого применения в области понимания видео, предоставляя мощный инструмент для решения сложных задач анализа видео, которые ранее были недоступны из-за ограничений традиционных методов.

Статья на arxiv Оригинал pdf ood video multimodal

Ай Дайджест