PhysGame: Открытие нарушений физической здравомыслия в игровом видео
Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) продемонстрировали появление различных возможностей для мышления и интерпретации динамического визуального контента. Среди них игровые видео выделяются как уникальный источник данных, часто содержащий сбои, которые противоречат физическим здравым рассуждениям. Эта характеристика делает их эффективным эталоном для оценки недостаточно исследованной способности к пониманию физического здравого смысла в видео LLMs. В этой статье мы предлагаем PhysGame как новаторский эталон для оценки нарушений физического здравого смысла в игровых видео. PhysGame включает в себя 880 видео, связанных со сбоями в четырех основных областях (т.е. механика, кинематика, оптика и свойства материалов) и охватывающих 12 различных аспектов физического здравого смысла. Проведя обширную оценку различных современных видео LLMs, мы обнаружили, что производительность текущих открытых видео LLMs значительно отстает от производительности проприетарных аналогов. Чтобы устранить этот разрыв, мы создали набор данных для настройки инструкций PhysInstruct с 140 057 парами вопросов и ответов для содействия обучению физического здравого смысла. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются в зависимости от вводящих в заблуждение заголовков (т.е. взлом метаинформации), меньшего числа кадров (т.е. временной взей) и более низкого пространственного разрешения (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, усиленный физическими знаниями. Обширные эксперименты по как физически ориентированному эталону PhysGame, так и общим эталонам видео понимания демонстрируют передовую производительность PhysVLM.