Ай Дайджест - категория convolution

TEXGen: Генеративная модель диффузии для текстур сеток

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D активов, мало исследований посвящено изучению непосредственно в пространстве текстур, особенно на больших наборах данных. В этой работе мы отходим от традиционного подхода, который полагается на предварительно обученные 2D модели диффузии для оптимизации текстур 3D в режиме тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в самом UV-пространстве текстур. Впервые мы обучаем большую модель диффузии, способную напрямую генерировать текстурные карты высокого разрешения в режиме прямого прохода. Для обеспечения эффективного обучения в UV-пространстве высокого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свёртки на UV-картах с слоями внимания на облаках точек. Используя эту архитектурную конструкцию, мы обучаем модель диффузии с 700 миллионами параметров, которая может генерировать UV-текстурные карты, руководствуясь текстовыми запросами и изображениями с одного ракурса. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая текстово-направленное заполнение текстур, заполнение текстур с разреженными видами и синтез текстур, управляемый текстом. Страница проекта доступна по адресу http://cvmi-lab.github.io/TEXGen/.

2024-11-27learning synthesis uv

EfficientViM: Эффективная архитектура для компьютерного зрения

2024-11-27neural attention tokens

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

2024-11-25convolution performance pretrained