PhysGame: Открытие нарушений физической здравомыслия в игровом видео

С недавним развитием больших языковых моделей (LLM) и их интеграцией с видеоаналитикой, появилась необходимость в новых подходах для оценки их способности к пониманию физической здравомыслия. В данной статье мы рассмотрим проект PhysGame, который служит пионерским бенчмарком для выявления нарушений физической здравомыслия в игровом видео, и его значимость для развития видеомоделей на основе LLM.

Зачем нужен PhysGame?

Игровые видео представляют собой уникальный источник данных, часто содержащий глитчи, которые нарушают физические законы. Эти глитчи могут быть вызваны ошибками в программировании или неправильной работой физического движка игры. Например, в одном из видео мотоцикл сталкивается с автомобилем, после чего автомобиль неестественно переворачивается в воздухе, что явно противоречит реальным физическим ожиданиям.

Human cognitive abilities allow us to intuitively recognize violations of physical commonsense based on our experiences. This understanding can be leveraged to assess the capabilities of video LLMs in recognizing similar violations. However, до сих пор не было создано комплексного бенчмарка, который бы позволял проводить такие оценки.

Структура PhysGame

PhysGame включает 880 игровых видео, каждое из которых сопровождается аннотированным вопросом, касающимся природы глитча. Бенчмарк охватывает четыре ключевые области физики: механика, кинематика, оптика и свойства материалов, а также 12 подкатегорий, таких как гравитация, скорость и упругость.

Примеры нарушений физической здравомыслия

Гравитация и столкновения: В одном из видео мотоцикл на высокой скорости сталкивается с машиной, которая, вместо того чтобы просто остановиться, резко взмывает в воздух. Это явное нарушение ожиданий, основанных на реальных физических законах.
Неправильная работа физического движка: В другом случае, мотоцикл, проходя через город, не замедляется при резком повороте, что также противоречит законам физики.
Ошибки в освещении: В некоторых видео персонажи могут двигаться через объекты, что свидетельствует о сбоях в системе коллизий и освещения.

Методология

Сбор данных

Видеозаписи были собраны из различных источников, включая Reddit и YouTube, с использованием ключевых слов, связанных с игровыми глитчами. После сбора данные были тщательно отфильтрованы, чтобы исключить дубликаты и неигровые элементы.

Аннотация данных

Каждое видео было аннотировано высококачественными вопросами в формате множественного выбора, которые помогают выявить физические нарушения. Вопросы были разработаны так, чтобы они были интуитивно понятны и не требовали глубоких знаний физики.

Классификация нарушений

Нарушения были классифицированы по нескольким основным категориям, что позволяет более точно оценивать и анализировать производительность моделей LLM в понимании физической здравомыслия.

Экспериментальная оценка

В рамках исследования были проведены эксперименты с различными существующими моделями LLM, как открытыми, так и проприетарными. Результаты показали, что открытые модели значительно уступают в производительности своим проприетарным аналогам. Например, модель GPT-4o показала значительно лучшие результаты по сравнению с LLaVA-Next-Video.

Введение в PhysInstruct и PhysDPO

Для улучшения понимания физической здравомыслия в видео LLM, были разработаны дополнительные наборы данных: PhysInstruct и PhysDPO.

PhysInstruct: Этот набор данных включает 140,057 пар вопросов и ответов, которые помогают в обучении моделей на основе инструкций, связанных с видео.
PhysDPO: Набор данных для оптимизации предпочтений, который включает 34,358 пар для обучения, где предпочтительные ответы основаны на корректных данных, а непредпочтительные — на вводящих в заблуждение заголовках или низком качестве видео.

Результаты

Результаты экспериментов показали, что PhysVLM, основанная на PhysGame, достигла состояния наилучшей производительности среди всех протестированных моделей. Это открывает новые горизонты для понимания и интерпретации видео, нарушающих физическую здравомыслие.

Выводы

PhysGame представляет собой важный шаг вперед в оценке способностей LLM в понимании физической здравомыслия в динамических видео. Этот бенчмарк не только помогает выявить недостатки в существующих моделях, но и служит основой для будущих исследований в области видеомоделей.

С помощью PhysGame и связанных наборов данных, таких как PhysInstruct и PhysDPO, исследователи могут более эффективно обучать и тестировать модели, что, в свою очередь, может привести к значительным улучшениям в области видеоаналитики и понимания визуального контента.

Таким образом, PhysGame не только подчеркивает важность физической здравомыслия в игровом контексте, но и открывает новые возможности для разработки более совершенных и интуитивно понятных систем искусственного интеллекта.

Статья на arxiv Оригинал pdf dataset video learning

Ай Дайджест