VideoLLM: Знание, Когда Говорить
Недавние исследования больших языковых моделей для видео (VideoLLM) в основном сосредоточены на архитектуре моделей и обучающих наборах данных, оставляя формат взаимодействия между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя целое видео и запрос в качестве входных данных, после чего модель генерирует ответ. Этот формат взаимодействия сдерживает применение VideoLLM в таких сценариях, как понимание стримингового видео, где видео не заканчивается и ответы требуются в реальном времени, а также приводит к неудовлетворительным результатам в задачах, чувствительных ко времени, которые требуют локализации сегментов видео. В этой статье мы сосредотачиваемся на формате взаимодействия видео-текст дует. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любое положение во время воспроизведения видео. Когда текстовое сообщение заканчивается, видео продолжает воспроизводиться, что аналогично взаимодействию двух исполнителей в дуэте. Мы создаем MMDuetIT, обучающий набор данных для видео-текста, предназначенный для адаптации VideoLLM к формату взаимодействия видео-текст дует. Мы также вводим задачу Multi-Answer Grounded Video Question Answering (MAGQA), чтобы оценить способность VideoLLM к ответам в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что использование формата взаимодействия видео-текст дует позволяет модели добиться значительных улучшений в различных задачах, чувствительных ко времени (76% CIDEr на плотном видеокаптировании YouCook2, 90% mAP на обнаружении выделенных моментов QVHighlights и 25% [email protected] на временной локализации видео Charades-STA) с минимальными затратами на обучение, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по адресу: https://github.com/yellow-binary-tree/MMDuet.