Проблема галлюцинаций в моделях генерации видео из текста

Современные технологии искусственного интеллекта (AI) и машинного обучения (ML) достигли впечатляющих результатов в различных областях, включая генерацию видео из текстовых описаний. Однако, несмотря на значительный прогресс, модели, известные как Text-to-Video (T2V), часто сталкиваются с проблемой галлюцинаций — генерацией контента, который не соответствует или искажает исходный текстовый запрос. В данной статье мы рассмотрим новый бенчмарк, созданный для оценки и классификации галлюцинаций в таких моделях.

Текстовые модели генерации видео (T2V) претерпели значительное развитие в последние годы, позволяя создавать видео контент из текстовых запросов с высокой степенью визуальной достоверности и согласованности. Тем не менее, одной из самых острых проблем остается генерация галлюцинаций — визуальных элементов, которые либо не соответствуют описанию в запросе, либо искажают его. Эти ошибки могут существенно повлиять на реализм и надежность генерируемого контента, что особенно критично в областях, где точность отображения сценария имеет первостепенное значение, например, в образовательных системах или симуляциях.

Создание бенчмарка

Для систематического изучения и классификации галлюцинаций в T2V моделях был разработан новый, масштабный датасет, который мы назвали ViBe. Этот датасет был создан на основе 700 случайно выбранных подписей из MS COCO датасета, использованных для генерации видео с помощью десяти ведущих открытых T2V моделей, включая MS1.7B, MagicTime, AnimateDiff-MotionAdapter и Zeroscope V2 XL. В результате было получено 3782 видео, каждое из которых было аннотировано людьми для идентификации различных типов галлюцинаций.

Категории галлюцинаций

В процессе аннотации были выделены пять основных типов галлюцинаций:

Исчезновение субъекта (Vanishing Subject, VS): Субъект или его часть исчезает на произвольных участках видео.
Численная изменчивость (Numeric Variability, NV): Количество объектов, указанное в запросе, изменяется в генерируемом видео.
Временная диспропорция (Temporal Dysmorphia, TD): Объекты в видео подвергаются непрерывным временным деформациям.
Ошибка опущения (Omission Error, OE): В видео отсутствуют ключевые элементы, описанные в запросе.
Физическая несообразность (Physical Incongruity, PI): Видео нарушает физические законы или содержит несоответствующие элементы.

Каждая из этих категорий представляет собой уникальный аспект проблемы галлюцинаций, с которыми сталкиваются T2V модели.

Анализ датасета

Видео, сгенерированные открытыми T2V моделями, имеют продолжительность от 1 до 2 секунд. Распределение галлюцинаций по категориям показывает, что физическая несообразность и ошибки опущения являются наиболее распространенными, что подчеркивает сложность для моделей точно отображать все элементы и физические законы, описанные в запросе.

Методы классификации

Для оценки датасета были использованы различные модели классификации, включая LSTM, Transformer, CNN, GRU, RNN, Random Forest и SVM. Эти модели были обучены на двух наборах признаков: VideoMAE и TimeSFormer embeddings. Результаты показали, что комбинация TimeSFormer embeddings с CNN обеспечила наилучшую производительность, достигнув точности 0.345 и F1-score 0.342.

Заключение и перспективы

Бенчмарк ViBe представляет собой значительный шаг вперед в изучении и решении проблемы галлюцинаций в моделях T2V. Он предоставляет стандартизированный инструмент для оценки моделей и стимулирует разработку новых методов для уменьшения ошибок генерации. В будущем планируется расширение датасета для включения новых категорий галлюцинаций и исследование методов их минимизации.

Таким образом, ViBe служит не только как инструмент для оценки текущих моделей, но и как основа для будущих исследований и улучшений в области генерации видео из текста, помогая создавать более точные и надежные системы, способные лучше отражать семантическое содержание исходного текста.