Свежая выжимка ml и AI статей - каждый день
Синтез изображений на основе текстовых описаний (Text-to-Image, T2I) стал одной из самых обсуждаемых тем в области машинного обучения. Современные диффузионные модели значительно улучшили качество генерации фотореалистичных изображений. Однако, несмотря на эти достижения, существующие методы всё ещё сталкиваются с трудностями при обработке сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. В этой статье мы обсудим новый подход, представленный в работе "GraPE: Генеративная платформа для композиционного T2I синтеза", который предлагает альтернативную парадигму для T2I синтеза, разбивая задачу на три этапа: генерация, планирование и редактирование.
Несмотря на успехи, достигнутые с помощью диффузионных моделей, такие модели часто допускают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. Эти ошибки могут возникать из-за недостатка подходящих обучающих данных и использования слабых текстовых кодировщиков. Это ограничивает их применение в реальных сценариях, где требуется автоматизированная и надежная генерация изображений.
Существующие подходы к улучшению T2I генерации можно разделить на две категории:
Хотя оба подхода показывают некоторые улучшения, задача остается далеко не решенной.
GraPE (Generate-Plan-Edit) предлагает модульный и свободный от обучения подход к T2I синтезу. Он разбивает задачу на три этапа:
Первый этап включает в себя использование современных моделей T2I для создания начального изображения. Эта модель может быть любой из существующих диффузионных моделей, таких как DALL-E или Stable Diffusion. Важно отметить, что на этом этапе изображение может содержать ошибки, которые мы будем исправлять на следующих этапах.
На втором этапе используется MLLM для анализа сгенерированного изображения и текстового описания. MLLM выполняет следующие задачи:
MLLM генерирует последовательность редактирования, которая включает конкретные шаги, необходимые для исправления ошибок в изображении.
На последнем этапе мы применяем модель редактирования изображений, чтобы последовательно реализовать план редактирования. Важно, что этот этап можно выполнить с использованием любой предобученной модели редактирования, что делает подход GraPE универсальным.
Авторы провели обширную экспериментальную оценку на трех бенчмарках и десяти моделях T2I, включая DALL-E 3 и Stable Diffusion 3.5. Результаты показали, что GraPE улучшает производительность SOTA моделей на 3 и более пунктов и сокращает разрыв в производительности между слабыми и сильными моделями.
GraPE представляет собой значительный шаг вперед в области генерации изображений на основе текстовых описаний. Его модульная структура и способность к адаптации к различным моделям делают его мощным инструментом для улучшения качества T2I синтеза. Несмотря на достигнутые успехи, работа по дальнейшему улучшению модели и расширению ее возможностей продолжается. В будущем можно ожидать интеграцию с моделями, которые будут более точно соответствовать текстовым описаниям, а также применение механизмов обратной связи для улучшения редактирования изображений.