Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "inversion"

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текст-в-изображение (T2I) часто включает в себя инвертирование изображения в соответствующую карту шума. Однако только инверсия обычно недостаточна для получения удовлетворительных результатов, и поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но их нельзя бесшовно переносить между архитектурами моделей. Здесь мы представляем FlowEdit, метод редактирования на основе текста для предварительно обученных моделей T2I потока, который не требует инверсии, оптимизации и является независимым от модели. Наш метод строит ОДУ, которая напрямую отображает между исходными и целевыми распределениями (соответствующими исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход инверсии. Это приводит к результатам, соответствующим современным стандартам, как мы иллюстрируем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.