UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик
Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.