Ай Дайджест - категория attributes

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

2024-12-11adaptation aesthetics framework

DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

Вот перевод текста на русский язык: --- **Тема: Направленное восстановление изображений** выдвинуто в качестве популярной задачи в области редактирования изображений на фоне последних достижений в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с поддержанием возможности редактирования вставленных объектов. В ответ на это, данная статья представляет **DreamMix** — генеративную модель на основе диффузии, которая способна вставлять целевые объекты в заданные сцены по указанным пользователем местам, одновременно позволяя произвольные текстово-направленные изменения их атрибутов. В частности, мы используем продвинутые базовые модели восстановления изображений и вводим фреймворк локально-глобального восстановления для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Дополнительно, мы предлагаем механизм декомпозиции атрибутов (ADM) и модуль подстановки текстовых атрибутов (TAS), чтобы улучшить разнообразие и дискриминативную способность текстового руководства по атрибутам. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и восстановление малых объектов. Наш код доступен в открытом доступе по адресу: https://github.com/mycfhs/DreamMix.

2024-11-27insertion inpainting diffusion

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

2024-11-21paradigm attributes diffusion