MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

С ростом популярности коротких видеороликов на социальных платформах, задача их редактирования становится все более актуальной. Традиционно, процесс редактирования видео требует значительных временных затрат и профессиональных навыков. Однако с недавними достижениями в области искусственного интеллекта (AI) и генеративных моделей, таких как LLM (Large Language Models), появились новые инструменты, которые позволяют пользователям редактировать видео с помощью простых текстовых подсказок. Это значительно упрощает процесс редактирования, но также ставит перед нами новые вызовы, особенно когда речь идет о мульти-инстанционном редактировании.

В данной статье мы рассмотрим новый подход, предложенный в исследовании под названием MIVE (Multi-Instance Video Editing), который включает в себя уникальные модули для предотвращения утечек редактирования и обеспечения точной локализации объектов. Также будет представлен новый набор данных MIVE Dataset и метрика Cross-Instance Accuracy (CIA) для оценки качества редактирования.

Проблематика Текущих Методов

Современные методы видеомонтажа, особенно в контексте нулевого обучения (zero-shot), часто сосредоточены на глобальном редактировании или редактировании одного объекта. Эти подходы могут привести к нежелательным изменениям в других частях видео, что становится серьезной проблемой, когда необходимо редактировать несколько объектов одновременно. Существующие методы сталкиваются с несколькими критическими вызовами:

Утечка редактирования: Когда редактирование одного объекта случайно затрагивает другие объекты в видео.
Ненадежное редактирование: Отсутствие точности в редактировании, что приводит к тому, что объекты не изменяются так, как это задумано.
Недостаток подходящих наборов данных и метрик: Существующие наборы данных не всегда подходят для задач мульти-инстанционного редактирования, и используемые метрики не способны адекватно оценить качество локального редактирования.

MIVE: Новый Подход

MIVE предлагает новый подход к мульти-инстанционному редактированию видео, который позволяет пользователям вносить изменения в видео, используя текстовые подсказки для каждого отдельного объекта. Основные компоненты MIVE включают:

Disentangled Multi-instance Sampling (DMS): Модуль, который позволяет избежать утечек редактирования, обеспечивая независимое редактирование каждого объекта.
Instance-centric Probability Redistribution (IPR): Модуль, который улучшает точность локализации редактирования и обеспечивает более надежные изменения в видео.

Disentangled Multi-instance Sampling (DMS)

DMS основан на принципе параллельного латентного семплирования (Latent Parallel Sampling) и шумового параллельного семплирования (Noise Parallel Sampling). Этот модуль позволяет независимо редактировать каждый объект, минимизируя утечки редактирования, которые могут возникнуть при использовании глобальных подсказок.

Латентное параллельное семплирование (LPS): Каждый объект редактируется независимо, используя свою подсказку и маску, что позволяет избежать нежелательных изменений в других частях видео.
Шумовое параллельное семплирование (NPS): После редактирования объекты объединяются и корректируются для улучшения качества и устранения артефактов.

Instance-centric Probability Redistribution (IPR)

IPR обеспечивает более точное редактирование, перераспределяя вероятности внимания в слоях перекрестного внимания. Это позволяет улучшить локализацию редактирования и уменьшить количество артефактов. Модуль IPR учитывает:

Избегание манипуляций с токенами заполнения: Это позволяет избежать артефактов, которые могут возникнуть при изменении вероятностей токенов, не относящихся к объектам.
Перераспределение вероятностей: Увеличение вероятностей для токенов, связанных с редактированием, и уменьшение для токенов, не относящихся к редактируемому объекту, что улучшает точность редактирования.

MIVE Dataset

Для оценки эффективности MIVE был создан новый набор данных, состоящий из 200 видео, каждый из которых содержит различные объекты и инстанции. Набор данных включает в себя:

Сегментационные маски: Каждое видео сопровождается масками для каждого объекта, что позволяет точно локализовать редактирование.
Подсказки для инстанций: Каждому объекту сопоставлена текстовая подсказка, что позволяет проводить детализированное редактирование.

Cross-Instance Accuracy (CIA)

Для оценки утечек редактирования была разработана новая метрика CIA. Она позволяет измерять, насколько редактирование одного объекта влияет на другие объекты в видео. Эта метрика вычисляется на основе косинусного сходства между векторными представлениями объектов и их подсказками.

Оценка Эффективности

В ходе экспериментов MIVE демонстрирует значительное превосходство над существующими методами. Используя как качественные, так и количественные оценки, MIVE продемонстрировала:

Высокую точность редактирования: Объекты редактируются в соответствии с заданными подсказками, минимизируя нежелательные изменения.
Низкие уровни утечек редактирования: Модуль DMS позволяет избежать влияния редактирования одного объекта на другие.
Улучшенное качество видео: Использование IPR позволяет достичь более высоких стандартов визуального качества, чем у существующих методов.

Заключение

MIVE представляет собой значительный шаг вперед в области мульти-инстанционного видеомонтажа, предлагая новые методы и подходы для решения существующих проблем. Создание нового набора данных и метрики для оценки качества редактирования открывает новые возможности для дальнейших исследований и разработок в этой области. С помощью MIVE пользователи могут более точно и эффективно редактировать видео, что делает этот процесс доступным и простым для широкой аудитории.

Статья на arxiv Оригинал pdf instance dataset leakage

Ай Дайджест