Свежая выжимка ml и AI статей - каждый день
Редактирование изображений с помощью глубокого обучения и текстовых инструкций достигло значительных успехов, но по-прежнему сталкивается с ограничениями в точности редактирования и сохранении ключевых характеристик исходного изображения. В данной статье мы предлагаем новый подход к редактированию изображений, используя модели генерации видео для создания плавных переходов от исходного изображения к желаемому результату. Этот метод, названный Frame2Frame (F2F), позволяет не только улучшить точность редактирования, но и сохранить ключевые аспекты исходного изображения, что является значительным шагом вперед по сравнению с традиционными методами.
Вместо того чтобы рассматривать редактирование изображения как однократное преобразование, мы представляем его как последовательность временных изменений. Это позволяет нам использовать модели генерации видео, которые уже обладают пониманием временных связей и могут создавать последовательные и физически правдоподобные переходы между кадрами.
Мы используем предобученные модели генерации видео, такие как CogVideoX, которые были обучены на больших объемах данных интернета. Эти модели способны создавать видео, где каждый кадр логически следует за предыдущим, что идеально подходит для нашего подхода к редактированию изображений.
Для каждого редактирования мы создаем "временные описания редактирования" (Temporal Editing Captions), которые описывают, как изменения должны происходить во времени. Это позволяет модели видео-генерации создавать плавные переходы, следуя заданным инструкциям.
После генерации видео, мы автоматически выбираем кадр, который наилучшим образом соответствует желаемому результату редактирования. Это делается с помощью Vision-Language Model (VLM), который анализирует каждый кадр на предмет соответствия текстовому описанию и сохранения исходного содержания.
Наш подход Frame2Frame демонстрирует, как можно использовать модели генерации видео для решения задач редактирования изображений, обходя многие ограничения традиционных методов. Он обеспечивает высокую точность редактирования и сохранение ключевых характеристик исходного изображения, что делает его перспективным направлением для дальнейших исследований и разработок в области машинного зрения и искусственного интеллекта.