Свежая выжимка ml и AI статей - каждый день
С ростом популярности коротких видеороликов на социальных платформах, задача их редактирования становится все более актуальной. Традиционно, процесс редактирования видео требует значительных временных затрат и профессиональных навыков. Однако с недавними достижениями в области искусственного интеллекта (AI) и генеративных моделей, таких как LLM (Large Language Models), появились новые инструменты, которые позволяют пользователям редактировать видео с помощью простых текстовых подсказок. Это значительно упрощает процесс редактирования, но также ставит перед нами новые вызовы, особенно когда речь идет о мульти-инстанционном редактировании.
В данной статье мы рассмотрим новый подход, предложенный в исследовании под названием MIVE (Multi-Instance Video Editing), который включает в себя уникальные модули для предотвращения утечек редактирования и обеспечения точной локализации объектов. Также будет представлен новый набор данных MIVE Dataset и метрика Cross-Instance Accuracy (CIA) для оценки качества редактирования.
Современные методы видеомонтажа, особенно в контексте нулевого обучения (zero-shot), часто сосредоточены на глобальном редактировании или редактировании одного объекта. Эти подходы могут привести к нежелательным изменениям в других частях видео, что становится серьезной проблемой, когда необходимо редактировать несколько объектов одновременно. Существующие методы сталкиваются с несколькими критическими вызовами:
MIVE предлагает новый подход к мульти-инстанционному редактированию видео, который позволяет пользователям вносить изменения в видео, используя текстовые подсказки для каждого отдельного объекта. Основные компоненты MIVE включают:
DMS основан на принципе параллельного латентного семплирования (Latent Parallel Sampling) и шумового параллельного семплирования (Noise Parallel Sampling). Этот модуль позволяет независимо редактировать каждый объект, минимизируя утечки редактирования, которые могут возникнуть при использовании глобальных подсказок.
IPR обеспечивает более точное редактирование, перераспределяя вероятности внимания в слоях перекрестного внимания. Это позволяет улучшить локализацию редактирования и уменьшить количество артефактов. Модуль IPR учитывает:
Для оценки эффективности MIVE был создан новый набор данных, состоящий из 200 видео, каждый из которых содержит различные объекты и инстанции. Набор данных включает в себя:
Для оценки утечек редактирования была разработана новая метрика CIA. Она позволяет измерять, насколько редактирование одного объекта влияет на другие объекты в видео. Эта метрика вычисляется на основе косинусного сходства между векторными представлениями объектов и их подсказками.
В ходе экспериментов MIVE демонстрирует значительное превосходство над существующими методами. Используя как качественные, так и количественные оценки, MIVE продемонстрировала:
MIVE представляет собой значительный шаг вперед в области мульти-инстанционного видеомонтажа, предлагая новые методы и подходы для решения существующих проблем. Создание нового набора данных и метрики для оценки качества редактирования открывает новые возможности для дальнейших исследований и разработок в этой области. С помощью MIVE пользователи могут более точно и эффективно редактировать видео, что делает этот процесс доступным и простым для широкой аудитории.