Ай Дайджест - категория representations

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

2024-12-16generation representations models

Изучение 3D-представлений с помощью процедурных 3D-программ

Самонадзорное обучение (self-supervised learning) выделяется как перспективный метод для получения переносимых 3D представлений из неразмеченных облаков 3D точек. В отличие от 2D изображений, которые широко доступны, получение 3D активов требует специализированных знаний или профессионального оборудования для 3D сканирования, что затрудняет масштабирование и вызывает вопросы авторского права. Чтобы решить эти проблемы, мы предлагаем обучение 3D представлений на основе процедурных 3D программ, которые автоматически генерируют 3D формы с использованием простых примитивов и аугментаций. Замечательно, что несмотря на отсутствие семантического содержания, 3D представления, обученные на этом синтезированном наборе данных, показывают результаты, сравнимые с передовыми представлениями, обученными на семантически узнаваемых 3D моделях (например, самолетах), в различных задачах 3D, включая классификацию форм, сегментацию частей и заполнение маскированных облаков точек. Наш анализ также указывает, что текущие методы самонадзорного обучения в основном захватывают геометрические структуры, а не высокие семантические уровни.

2024-11-27segmentation representations augmentations