OmniCreator: Унифицированное поколение и редактирование видео с самообучением

С развитием генеративного искусственного интеллекта (AI) открываются новые горизонты для создания и редактирования контента. В частности, достижения в области генерации текста в изображения (T2I) стали основой для инновационных методов редактирования, позволяя манипулировать изображениями и видео на основе текстовых подсказок. Однако, редактирование видео с сохранением согласованности между кадрами представляет собой сложную задачу. В этой статье рассматривается OmniCreator — новая архитектура, которая сочетает в себе генерацию и редактирование видео на основе текстовых подсказок, используя самообучение для достижения универсальных результатов.

Основные концепции OmniCreator

Самообучение и семантическое соответствие

OmniCreator использует самообучение, что позволяет избежать затрат на аннотирование данных. В процессе обучения модель принимает оригинальные пары текст-видео в качестве условий, используя одно и то же видео в качестве целевого для денойзинга. Это позволяет модели изучать семантическое соответствие между текстом и видео, что является ключевым для достижения универсального эффекта редактирования.

Универсальное редактирование

В отличие от существующих методов редактирования, которые ограничены определенными типами редактирования или требуют дополнительных контролей, OmniCreator позволяет проводить универсальное редактирование. Это означает, что при предоставлении текстовой подсказки и видео, модель может генерировать целевое видео, которое соответствует обоим условиям, без ограничений.

Архитектурные инновации

Для реализации своих возможностей OmniCreator вводит несколько ключевых архитектурных решений. Во-первых, модель использует адаптеры для обработки временной информации, что позволяет лучше интегрировать видео в процесс денойзинга. Во-вторых, используется трансформер запросов для улучшенной мультимодальной фузии, что помогает лучше интерпретировать видео в сочетании с текстовыми встраиваниями.

OmniBench-99: Новый стандарт для оценки

Одной из значительных проблем в области генеративного редактирования видео является отсутствие стандартных наборов данных для оценки. В ответ на это, OmniCreator представляет OmniBench-99 — новый набор данных, который включает 99 видео, каждое из которых сопровождается текстовыми подсказками для четырех типов редактирования. Этот набор данных позволяет более комплексно оценивать производительность моделей генеративного редактирования видео.

Проблемы и решения в редактировании видео

Сложности в согласовании текста и видео

Одной из главных задач является согласование текстовых и видео встраиваний, что усложняется временной динамикой видео. OmniCreator решает эту задачу, используя адаптер, который позволяет захватывать временные аспекты видео с минимальными затратами вычислительных ресурсов.

Обработка видео в условиях денойзинга

В традиционных подходах к редактированию видео часто используются структурные условия, такие как карты глубины или маски, что ограничивает гибкость модели. OmniCreator предлагает использовать одно и то же видео в качестве условия для денойзинга, что позволяет модели изучать структуру видео на семантическом уровне.

Результаты и эксперименты

Эксперименты с производительностью

Обширные эксперименты показывают, что OmniCreator демонстрирует значительное превосходство над другими моделями в области генерации и редактирования видео. Модель успешно справляется с различными сценариями редактирования, включая изменение погоды, времени суток и добавление объектов.

Оценка качества

Для оценки качества редактирования и генерации используются как автоматические метрики, такие как Fréchet Video Distance (FVD), так и пользовательские исследования, которые позволяют получить мнения от реальных пользователей о качестве сгенерированного контента.

Заключение

OmniCreator представляет собой значительный шаг вперед в области генеративного редактирования видео и изображений. Используя самообучение и семантическое соответствие, модель может эффективно генерировать и редактировать видео на основе текстовых подсказок, обеспечивая универсальность и высокое качество результатов. Введение OmniBench-99 как нового стандарта для оценки моделей открывает новые возможности для исследований в этой области, что, безусловно, приведет к дальнейшему развитию технологий генеративного редактирования.

Статья на arxiv Оригинал pdf unified inference self-supervised

Ай Дайджест