Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "editing"

MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

Недавние методы видеомонтажа на основе ИИ позволили пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние методы видеомонтажа без предварительной тренировки в основном сосредоточены на глобальных изменениях или редактировании одного объекта, что может привести к нежелательным изменениям в других частях видео. Когда несколько объектов требуют локализованных изменений, существующие методы сталкиваются с такими проблемами, как неточное редактирование, утечка редактирования и нехватка подходящих датасетов и метрик для оценки. Чтобы преодолеть эти ограничения, мы предлагаем нулевую многокомпонентную видеомонтажную структуру, названную MIVE. MIVE — это универсальная маско-ориентированная структура, не предназначенная для конкретных объектов (например, людей). MIVE вводит два ключевых модуля: (i) Разделенное многокомпонентное выборка (DMS), чтобы предотвратить утечку редактирования, и (ii) Вероятностное перераспределение на основе объектов (IPR), чтобы обеспечить точную локализацию и достоверное редактирование. Кроме того, мы представляем наш новый датасет MIVE с разнообразными видеосценариями и вводим Оценку точности между экземплярами (CIA) для оценки утечки редактирования в задачах многокомпонентного видеомонтажа. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит современные передовые методы по верности редактирования, точности и предотвращению утечек, устанавливая новый стандарт для многокомпонентного видеомонтажа. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/.

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текст-в-изображение (T2I) часто включает в себя инвертирование изображения в соответствующую карту шума. Однако только инверсия обычно недостаточна для получения удовлетворительных результатов, и поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но их нельзя бесшовно переносить между архитектурами моделей. Здесь мы представляем FlowEdit, метод редактирования на основе текста для предварительно обученных моделей T2I потока, который не требует инверсии, оптимизации и является независимым от модели. Наш метод строит ОДУ, которая напрямую отображает между исходными и целевыми распределениями (соответствующими исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход инверсии. Это приводит к результатам, соответствующим современным стандартам, как мы иллюстрируем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Мы представляем HumanEdit, высококачественный набор данных, вознагражденный людьми, специально разработанный для редактирования изображений под Anleitung, позволяющий точные и разнообразные манипуляции изображениями с помощью открытых текстовых инструкций. Предыдущие наборы данных редактирования крупномасштабного уровня часто включали минимальную обратную связь от человека, что приводило к проблемам с согласованием наборов данных с человеческими предпочтениями. HumanEdit преодолевает этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. С тщательно отобранными данными HumanEdit включает 5751 изображение и требует более 2500 часов человеческих усилий на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач редактирования изображений. Набор данных включает шесть различных типов инструкций редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывающих широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, а для подмножества данных мы обеспечиваем, чтобы инструкции были достаточно подробными для поддержки редактирования без масок. Более того, HumanEdit предлагает всеобъемлющее разнообразие и высокое разрешение 1024 на 1024 контента, полученного из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью содействия будущим исследованиям и установления оценочных стандартов в области редактирования изображений мы публикуем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

OmniCreator: Унифицированное поколение и редактирование видео с самообучением

Мы представляем OmniCreator, новую Framework, которая может осуществлять генерируемое текстом унифицированное (изображение + видео) создание, а также редактирование всего в одном месте. OmniCreator приобретает генеративные и универсальные редакционные возможности в самонаправленном режиме, принимая оригинальные текстово-видео пары в качестве условий, одновременно используя то же самое видео в качестве цели денойзинга для изучения семантического соответствия между видео и текстом. Во время вывода, когда представляется текстовый запрос и видео, OmniCreator способен генерировать целевой контент, который верен обоим, достигая универсального эффекта редактирования, который не ограничен в отличие от существующих редакционных работ, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролей (например, структурных условий, функций внимания или инверсии DDIM). С другой стороны, когда представлен только текстовый запрос, OmniCreator становится генеративным, создавая высококачественное видео в результате изученного семантического соответствия. Важно отметить, что те же возможности распространяются на изображения как есть, что делает OmniCreator поистине унифицированной Framework. Более того, из-за отсутствия существующих бенчмарков для генеративного редактирования видео, мы представляем набор данных OmniBench-99, предназначенный для комплексной оценки производительности моделей генеративного редактирования видео. Обширные эксперименты демонстрируют, что OmniCreator демонстрирует значительное превосходство над всеми другими моделями.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

Вот перевод текста на русский язык: --- **Тема: Направленное восстановление изображений** выдвинуто в качестве популярной задачи в области редактирования изображений на фоне последних достижений в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с поддержанием возможности редактирования вставленных объектов. В ответ на это, данная статья представляет **DreamMix** — генеративную модель на основе диффузии, которая способна вставлять целевые объекты в заданные сцены по указанным пользователем местам, одновременно позволяя произвольные текстово-направленные изменения их атрибутов. В частности, мы используем продвинутые базовые модели восстановления изображений и вводим фреймворк локально-глобального восстановления для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Дополнительно, мы предлагаем механизм декомпозиции атрибутов (ADM) и модуль подстановки текстовых атрибутов (TAS), чтобы улучшить разнообразие и дискриминативную способность текстового руководства по атрибутам. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и восстановление малых объектов. Наш код доступен в открытом доступе по адресу: https://github.com/mycfhs/DreamMix.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

Гауссиан Энисинг: Интерактивная генерация 3D с помощью точечного облака и латентной диффузии

В то время как создание трехмерного контента значительно продвинулось, существующие методы все еще сталкиваются с проблемами, связанными с форматами ввода, дизайном латентного пространства и представлениями вывода. В данной статье представлена новая 3D генеративная структура, которая решает эти проблемы, предлагая масштабируемое, высококачественное 3D-генерация с интерактивным латентным пространством, структурированным как облако точек. Наша структура использует вариационный автокодировщик (VAE) с многовидовыми позированными RGB-D (глубина)-N (нормали) визуализациями в качестве входных данных, применяя уникальный дизайн латентного пространства, который сохраняет информацию о 3D-форме, и включает каскадную модель диффузии латентного пространства для улучшения разделения формы и текстуры. Предлагаемый метод, GaussianAnything, поддерживает многомодальное условное 3D-генерация, позволяя использовать в качестве входных данных облака точек, подписи и изображения с одной или нескольких точек зрения. Особенно стоит отметить, что новое латентное пространство естественно обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование, учитывающее 3D. Экспериментальные результаты показывают эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в текстовой, так и в изображения-условной 3D-генерации.

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор

Методы редактирования изображений на основе инструкций показали значительный потенциал, обучая модели диффузии на автоматически синтезированных или вручную аннотированных парах изображений для редактирования. Однако эти методы всё ещё далеки от практического применения в реальной жизни. Мы выделяем три основных вызова, которые способствуют этому разрыву. Во-первых, существующие модели обладают ограниченными навыками редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов, что связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одной низкой разрешенностью и фиксированным соотношением сторон, что ограничивает универсальность для обработки реальных сценариев использования. В данной статье мы представляем \omniedit, который является всесильным редактором, способным обрабатывать семь различных задач редактирования изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырёх частей: (1) \omniedit обучается с использованием супервизии от семи различных специализированных моделей, чтобы обеспечить охват задач. (2) Мы используем важностное выборочное обучение на основе оценок, предоставляемых крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) Мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования. (4) Мы предоставляем изображения с различными соотношениями сторон, чтобы наша модель могла обрабатывать любые изображения из реального мира. Мы создали тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для покрытия различных задач. Как автоматическая оценка, так и оценка людьми показывают, что \omniedit значительно превосходит все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/.

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Современное программное обеспечение для визуальных эффектов (VFX) позволяет талантливым художникам создавать изображения практически чего угодно. Однако процесс создания остается трудоемким, сложным и в основном недоступным для повседневных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Внимательно интегрируя нейронное моделирование сцен, генерацию кода на основе LLM и физическое моделирование, AutoVFX способен предоставлять физически обоснованные, фотореалистичные эффекты редактирования, которые можно контролировать напрямую с помощью инструкций на естественном языке. Мы провели обширные эксперименты для проверки эффективности AutoVFX на широком спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX превосходит все конкурирующие методы с большим отрывом в качестве генерации, соответствии инструкциям, универсальности редактирования и физической правдоподобности.

neuralvfxllm