Пути на образном многообразии: Редактирование изображений через генерацию видео
Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.