Свежая выжимка ml и AI статей - каждый день
Вставка объектов в изображения по текстовым инструкциям является сложной задачей в области семантической обработки изображений. Она требует баланса между сохранением оригинального контента сцены и интеграцией нового объекта таким образом, чтобы он выглядел естественно и уместно. Несмотря на значительные усилия в этой области, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно когда речь идет о выборе подходящего места для добавления объекта в сложных сценах.
Вставка объектов в изображения на основе текстовых инструкций открывает множество возможностей для создания контента, компьютерной графики и генерации синтетических данных. Например, художники могут использовать модели текст-к-изображению для постепенного построения сложных визуальных сцен, а исследователи в области автономного вождения могут добавлять пешеходов в новые сценарии для обучения систем восприятия автомобилей.
Основная проблема заключается в том, чтобы добавить объект таким образом, чтобы он не только соответствовал текстовой инструкции, но и выглядел естественно в контексте изображения. Это требует понимания аффордансов — глубоких семантических знаний о том, как люди и объекты взаимодействуют в реальном мире, чтобы разместить объект в подходящем месте. Мы называем эту задачу Image Additing.
Ранние попытки решения этой задачи включали использование традиционных методов компьютерной графики, где объекты размещались вручную или с помощью синтетических данных. С развитием глубокого обучения, генеративные модели начали обучаться на больших наборах данных, чтобы предсказывать возможные позиции объектов в сценах. Например:
Несмотря на их эффективность, эти методы часто сталкиваются с трудностями при работе с реальными сценариями размещения.
Мы представляем Add-it, метод, который позволяет вставлять объекты в изображения без дополнительного обучения или оптимизации. Add-it использует предобученные диффузионные модели, расширяя их механизмы внимания для интеграции информации из трех ключевых источников:
Add-it вводит взвешенное расширенное внимание, которое помогает поддерживать структурную согласованность и детализацию, одновременно обеспечивая естественное размещение объектов. Механизм внимания модифицируется таким образом, чтобы учитывать токены из исходного изображения, текстового запроса и генерируемого изображения. Это позволяет модели извлекать ключевые и значения из всех трех источников:
A = softmax([Q_p, Q_target][K_source, K_p, K_target]⊤ / √d_k)
h = A · [V_source, V_p, V_target]
где Q_p
, Q_target
— запросы для текстового запроса и генерируемого изображения соответственно, а K
и V
— ключи и значения, извлеченные из исходного изображения, текстового запроса и генерируемого изображения.
Для обеспечения структурного сходства между исходным и целевым изображениями, мы применяем структурный перенос. Этот процесс включает в себя добавление шума к исходному изображению на высоких уровнях шума, что позволяет сохранить общую структуру, но дает возможность вносить изменения в содержание изображения.
Чтобы сохранить мелкие детали исходного изображения, такие как текстуры и тени, мы вводим субъектно-ориентированное латентное смешивание. Этот шаг включает в себя создание маски объекта с помощью модели сегментации SAM-2 и смешивание латентных представлений исходного и целевого изображений на основе этой маски.
Мы оценили Add-it на нескольких бенчмарках, включая наш новый Additing Affordance Benchmark, который оценивает правдоподобность размещения объектов. Add-it показал превосходные результаты, значительно улучшив метрики аффордансов и включения объектов по сравнению с существующими методами.
В ходе пользовательских исследований, Add-it был предпочтен в более чем 80% случаев по сравнению с другими методами.
Add-it представляет собой значительный шаг вперед в области вставки объектов в изображения без необходимости дополнительного обучения. Этот метод демонстрирует, что использование знаний, заложенных в предобученные диффузионные модели, может привести к созданию естественных и убедительных изображений с добавленными объектами. Add-it открывает новые возможности для семантической обработки изображений, облегчая создание сложных визуальных сцен и улучшая качество синтетических данных для обучения AI-моделей.