Ай Дайджест - категория module

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.

2024-11-15diffusion model editing

Генерирование 3D и 4D сцен с Gen-X-D: От теории к практике

Недавние достижения в области генерации двумерных визуальных изображений были весьма успешными. Однако, создание 3D и 4D объектов остается сложной задачей в реальных приложениях из-за отсутствия масштабных 4D данных и эффективного дизайна моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D объектов, используя движения камеры и объектов, которые часто наблюдаются в повседневной жизни. Из-за недостатка реальных 4D данных в сообществе, мы сначала предлагаем пайплайн курирования данных для получения позиций камеры и интенсивности движения объектов из видео. На основе этого пайплайна мы представляем крупномасштабный набор данных реальных 4D сцен: CamVid-30K. Используя все 3D и 4D данные, мы разрабатываем нашу платформу, GenXD, которая позволяет создавать любую 3D или 4D сцену. Мы вводим мультивью-темпоральные модули, которые разделяют движения камеры и объектов, чтобы беспрепятственно учиться на обоих типах данных. Кроме того, GenXD использует маскированные латентные условия для поддержки различных условий визуализации. GenXD способен генерировать видео, которые следуют траектории камеры, а также согласованные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами генерации 3D и 4D объектов.

2024-11-05generation module evaluation