Свежая выжимка ml и AI статей - каждый день
С развитием технологий редактирования изображений, особенно с использованием диффузионных моделей, методы редактирования стали значительно более мощными и разнообразными. Однако, несмотря на достижения, существующие подходы все еще сталкиваются с рядом ограничений, особенно при выполнении крупных модификаций, таких как добавление или удаление объектов. В этой статье мы рассмотрим BrushEdit — новую интерактивную платформу для редактирования изображений, которая сочетает в себе возможности мультимодальных больших языковых моделей (MLLM) и технологии инпейнтинга.
Существуют два основных подхода к редактированию изображений: основанные на инверсии и основанные на инструкциях.
Инверсионные методы используют структурированную информацию о зашумленных латентных представлениях для сохранения содержания в неотредактированных областях. Однако они часто неэффективны для крупных изменений, требуя от пользователей точных и высококачественных аннотаций для достижения желаемого результата.
Методы на основе инструкций требуют наличия парных данных, что затрудняет их применение в реальных условиях, где такие данные могут быть недоступны. Эти методы обычно действуют как черные ящики, что ограничивает возможности пользователей по интерактивному контролю над редактированием.
BrushEdit предлагает новый подход к редактированию изображений, который преодолевает ограничения существующих методов. Эта платформа использует комбинированный подход, основанный на инпейнтинге и управлении с помощью инструкций, что позволяет пользователям легко выполнять редактирование изображений с использованием естественного языка.
BrushEdit состоит из четырех основных этапов:
Каждый из этих этапов использует предварительно обученные модели MLLM и модели обнаружения для извлечения и обобщения инструктивной информации, что обеспечивает четкое промежуточное взаимодействие для последующих диффузионных моделей.
Одной из ключевых особенностей BrushEdit является возможность интерактивного редактирования. Пользователи могут вносить изменения в промежуточные управляющие данные на любом этапе, что позволяет им многократно выполнять эти шаги до достижения удовлетворительного результата. Это делает BrushEdit удобным для пользователей, желающих получить высококачественные результаты без необходимости глубоких знаний в области редактирования изображений.
Эксперименты показывают, что BrushEdit значительно превосходит существующие методы по множеству показателей, включая сохранение маски и согласованность редактирования. Платформа демонстрирует отличные результаты в отношении сохранения фона и генерации контента, что делает ее идеальным инструментом для редактирования изображений в различных контекстах.
BrushEdit превосходит предыдущие модели, такие как BrushNet, благодаря своей унифицированной архитектуре, которая может обрабатывать произвольные формы масок. Это позволяет избежать артефактов, возникающих при использовании случайных масок, и несоответствий на границах, которые часто наблюдаются в других моделях.
BrushEdit представляет собой важный шаг вперед в области редактирования изображений, предлагая пользователям мощный инструмент, который сочетает в себе интерактивность и высокое качество редактирования. С помощью интеграции MLLM и инпейнтинговых технологий BrushEdit открывает новые горизонты для креативных профессионалов, позволяя им реализовывать свои идеи быстрее и с меньшими усилиями.
В будущем мы ожидаем, что BrushEdit станет основным инструментом для редактирования изображений, предоставляя пользователям возможность легко и эффективно вносить изменения в свои визуальные материалы.