Свежая выжимка ml и AI статей - каждый день
С развитием генеративного искусственного интеллекта (AI) открываются новые горизонты для создания и редактирования контента. В частности, достижения в области генерации текста в изображения (T2I) стали основой для инновационных методов редактирования, позволяя манипулировать изображениями и видео на основе текстовых подсказок. Однако, редактирование видео с сохранением согласованности между кадрами представляет собой сложную задачу. В этой статье рассматривается OmniCreator — новая архитектура, которая сочетает в себе генерацию и редактирование видео на основе текстовых подсказок, используя самообучение для достижения универсальных результатов.
OmniCreator использует самообучение, что позволяет избежать затрат на аннотирование данных. В процессе обучения модель принимает оригинальные пары текст-видео в качестве условий, используя одно и то же видео в качестве целевого для денойзинга. Это позволяет модели изучать семантическое соответствие между текстом и видео, что является ключевым для достижения универсального эффекта редактирования.
В отличие от существующих методов редактирования, которые ограничены определенными типами редактирования или требуют дополнительных контролей, OmniCreator позволяет проводить универсальное редактирование. Это означает, что при предоставлении текстовой подсказки и видео, модель может генерировать целевое видео, которое соответствует обоим условиям, без ограничений.
Для реализации своих возможностей OmniCreator вводит несколько ключевых архитектурных решений. Во-первых, модель использует адаптеры для обработки временной информации, что позволяет лучше интегрировать видео в процесс денойзинга. Во-вторых, используется трансформер запросов для улучшенной мультимодальной фузии, что помогает лучше интерпретировать видео в сочетании с текстовыми встраиваниями.
Одной из значительных проблем в области генеративного редактирования видео является отсутствие стандартных наборов данных для оценки. В ответ на это, OmniCreator представляет OmniBench-99 — новый набор данных, который включает 99 видео, каждое из которых сопровождается текстовыми подсказками для четырех типов редактирования. Этот набор данных позволяет более комплексно оценивать производительность моделей генеративного редактирования видео.
Одной из главных задач является согласование текстовых и видео встраиваний, что усложняется временной динамикой видео. OmniCreator решает эту задачу, используя адаптер, который позволяет захватывать временные аспекты видео с минимальными затратами вычислительных ресурсов.
В традиционных подходах к редактированию видео часто используются структурные условия, такие как карты глубины или маски, что ограничивает гибкость модели. OmniCreator предлагает использовать одно и то же видео в качестве условия для денойзинга, что позволяет модели изучать структуру видео на семантическом уровне.
Обширные эксперименты показывают, что OmniCreator демонстрирует значительное превосходство над другими моделями в области генерации и редактирования видео. Модель успешно справляется с различными сценариями редактирования, включая изменение погоды, времени суток и добавление объектов.
Для оценки качества редактирования и генерации используются как автоматические метрики, такие как Fréchet Video Distance (FVD), так и пользовательские исследования, которые позволяют получить мнения от реальных пользователей о качестве сгенерированного контента.
OmniCreator представляет собой значительный шаг вперед в области генеративного редактирования видео и изображений. Используя самообучение и семантическое соответствие, модель может эффективно генерировать и редактировать видео на основе текстовых подсказок, обеспечивая универсальность и высокое качество результатов. Введение OmniBench-99 как нового стандарта для оценки моделей открывает новые возможности для исследований в этой области, что, безусловно, приведет к дальнейшему развитию технологий генеративного редактирования.