Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "reconstruction"

CAD-Recode: Обратная инженерия CAD-кода из облаков точек

Модели, созданные с помощью компьютерногоAided Design (CAD), обычно строятся путем последовательного рисования параметрических скетчей и применения операций CAD для получения 3D модели. Проблема обратного инжиниринга 3D CAD состоит в восстановлении последовательностей скетчей и операций CAD из 3D представлений, таких как облака точек. В этой работе мы обращаемся к этой задаче через новые вклады на трех уровнях: представление последовательностей CAD, проектирование сети и набор данных. В частности, мы представляем последовательности скетч-экструзий CAD как код Python. Предложенный CAD-Recode преобразует облако точек в код Python, который, когда выполняется, восстанавливает модель CAD. Используя преимущества открытости предобученных больших языковых моделей (LLMs) к коду Python, мы используем относительно небольшую LLM в качестве декодера для CAD-Recode и комбинируем ее с легким проектором облаков точек. CAD-Recode обучается исключительно на предложенном синтетическом наборе данных из одного миллиона разнообразных последовательностей CAD. CAD-Recode значительно превосходит существующие методы по трем наборам данных, требуя при этом меньшее количество входных точек. Примечательно, что он достигает в 10 раз меньшего среднего расстояния Шамфера, чем самые современные методы на наборах данных DeepCAD и Fusion360. Кроме того, мы показываем, что наш вывод кода Python CAD интерпретируем LLMs с торговых полок, что позволяет редактировать CAD и отвечать на специфические для CAD вопросы на основе облаков точек.

cad3dmodel

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

Wonderland: Навигация по 3D-сценам из одного изображения

Эта работа касается сложного вопроса: как мы можем эффективно создавать высококачественные, масштабные 3D-сцены из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость в данных с нескольких точек зрения, продолжительная оптимизация для каждой сцены, низкое визуальное качество фонов и искаженные реконструкции в не видимых областях. Мы предлагаем новую схему, чтобы преодолеть эти ограничения. В частности, мы представляем масштабную модель реконструкции, которая использует латенты из модели диффузии видео для предсказания 3D-Гауссовских разбросов для сцен в прямом направлении. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с нескольких точек зрения, сохраняя при этом 3D-последовательность. Мы обучаем модель 3D-реконструкции работать в пространстве видео-латентов с помощью прогрессивной стратегии обучения, что позволяет эффективно генерировать высококачественные, масштабные и универсальные 3D-сцены. Обширные оценки на различных наборах данных демонстрируют, что наша модель значительно превосходит существующие методы генерации 3D-сцен с одного вида, особенно с изображениями из другой области. Впервые мы демонстрируем, что модель 3D-реконструкции может быть эффективно построена на основе латентного пространства модели диффузии для реализации эффективной генерации 3D-сцен.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

SplineGS: Новая эра синтеза новизны в динамических сценах

Синтезирование новых видов из монокулярных видео в естественной обстановке представляет собой сложную задачу из-за динамики сцены и отсутствия многоугловых подсказок. Для решения этой проблемы мы предлагаем SplineGS, свободную от COLMAP динамическую 3D Gaussian Splatting (3DGS) архитектуру для высококачественной реконструкции и быстрой отрисовки из монокулярных видео. В ее основе лежит новый метод Motion-Adaptive Spline (MAS), который представляет собой непрерывные динамические 3D Gaussian траектории с использованием кубических сплайнов Эрмита с малым числом контрольных точек. Для MAS мы вводим метод Motion-Adaptive Control points Pruning (MACP), чтобы смоделировать деформацию каждой динамической 3D Gaussian при различных движениях, постепенно уменьшая количество контрольных точек, сохраняя при этом целостность динамического моделирования. Кроме того, мы представляем стратегию совместной оптимизации для оценки параметров камеры и 3D Gaussian атрибутов, используя фотометрию и геометрическую согласованность. Это устраняет необходимость в предварительной обработке Structure-from-Motion и повышает устойчивость SplineGS в реальных условиях. Эксперименты показывают, что SplineGS значительно превосходит современные методы по качеству синтеза новых видов для динамических сцен из монокулярных видео, достигая скорости отрисовки в тысячи раз быстрее.

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

Генеративная Дензфикация: Обучение для Дензификации Гауссианов для Высококачественной Генерализуемой 3D Реконструкции

Обобщенные модели гауссовских сетей с прямой связью достигли значительного прогресса в разреженной 3D-реконструкции, используя предварительные знания из больших многовидовых наборов данных. Однако эти модели часто испытывают трудности при представлении деталей с высоким разрешением из-за ограниченного количества гауссов. Хотя стратегия увеличения плотности, используемая в оптимизации 3D гауссовского сплошного распыления (3D-GS), может быть адаптирована для моделей с прямой связью, она может быть не идеально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Уплотнённость, эффективный и обобщаемый метод уплотнения гауссов, генерируемых моделями с прямой связью. В отличие от стратегии уплотнения 3D-GS, которая итеративно делит и клонирует сырые параметры гаусса, наш метод повышает разрешение представлений признаков из моделей с прямой связью и генерирует соответствующие тонкие гауссы за один проход вперед, используя встроенные предварительные знания для повышения обобщения. Экспериментальные результаты по задачам реконструкции как на уровне объектов, так и на уровне сцен демонстрируют, что наш метод превосходит современные подходы с сопоставимыми или меньшими размерами моделей, достигая заметных улучшений в представлении тонких деталей.

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

2DGS-Room: Реконструкция Интерьеров с Помощью 2D Гауссового Сплошения

Реконструкция внутренних сцен остается сложной из-за присущей сложности пространственных структур и распространенности областей без текстур. Недавние достижения в 3D-гауссовском сплаттинге улучшили синтез новых видов с ускоренной обработкой, но еще не обеспечили сопоставимую производительность в реконструкции поверхности. В этой статье мы представляем 2DGS-Room, новый метод, использующий 2D-гауссовский сплаттинг для высококачественной реконструкции внутренних сцен. В частности, мы используем механизм, управляемый семенами, чтобы контролировать распределение 2D-гауссианов, при этом плотность семенных точек динамически оптимизируется с помощью адаптивных механизмов роста и обрезки. Чтобы дополнительно улучшить геометрическую точность, мы включаем монокулярные глубины и нормалей как приори для обеспечения ограничений по деталям и бесструктурным регионам соответственно. Кроме того, используются ограничения многовидовой согласованности для уменьшения артефактов и дополнительного улучшения качества реконструкции. Обширные эксперименты на датасетах ScanNet и ScanNet++ демонстрируют, что наш метод достигает наилучшей производительности в реконструкции внутренних сцен.

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

PanoDreamer: Синтез 3D панорам из одного изображения

В данной работе мы представляем PanoDreamer, новый метод создания согласованной 360° 3D-сцены из одного входного изображения. В отличие от существующих методов, которые генерируют сцену последовательно, мы формулируем задачу как создание панорамы и оценку глубины из одного изображения. Как только согласованное панорамное изображение и соответствующая ему глубина получены, сцену можно восстановить, заполнив небольшие закрытые области и проецируя их в 3D-пространство. Наше ключевое достижение заключается в формулировке задачи создания панорамы и оценки глубины из одного изображения как двух задач оптимизации и внедрении чередующихся стратегий минимизации для эффективного решения их целей. Мы демонстрируем, что наш подход превосходит существующие методы в реконструкции сцены 360° из одного изображения по критериям согласованности и общего качества.

AlphaTablets: Новая генерация представления 3D-плоскостей для реконструкции из монокулярных видео

Мы представляем AlphaTablets, новаторское и общее представление 3D-плоскостей, которое характеризуется непрерывной 3D-поверхностью и точным delineation границ. Представляя 3D-плоскости в виде прямоугольников с альфа-каналами, AlphaTablets объединяют преимущества современных 2D и 3D представлений плоскостей, обеспечивая точное, последовательное и гибкое моделирование 3D-плоскостей. Мы выводим дифференцируемую растеризацию на основе AlphaTablets, чтобы эффективно отображать 3D-плоскости в изображения, и предлагаем новую схему снизу-вверх для 3D-планарной реконструкции из одноокулярных видео. Начав с 2D суперпикселей и геометрических подсказок от предварительно обученных моделей, мы инициализируем 3D-плоскости как AlphaTablets и оптимизируем их с помощью дифференцируемой рендеринга. Вводится эффективная схема слияния для облегчения роста и уточнения AlphaTablets. Через итеративную оптимизацию и слияние мы восстанавливаем полные и точные 3D-плоскости с твердыми поверхностями и четкими границами. Обширные эксперименты на наборе данных ScanNet демонстрируют наилучшие характеристики в 3D-планарной реконструкции, подчеркивая великий потенциал AlphaTablets как общего представления 3D-плоскости для различных приложений. Страница проекта доступна по адресу: https://hyzcluster.github.io/alphatablets

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.

StdGEN: Генерация 3D персонажей с семантическим разложением из одной изображения

Мы представляем StdGEN, инновационный конвейер для создания семантически разложенных высококачественных 3D-персонажей из отдельных изображений, что открывает широкие возможности для использования в виртуальной реальности, играх и кинопроизводстве и т.д. В отличие от предыдущих методов, которые сталкивались с ограниченной разложимостью, неудовлетворительным качеством и долгим временем оптимизации, StdGEN обладает разложимостью, эффективностью и производительностью; то есть он создает детализированные 3D-персонажи с разделёнными семантическими компонентами, такими как тело, одежда и волосы, за три минуты. В основе StdGEN лежит наша предложенная модель Semantic-aware Large Reconstruction Model (S-LRM), обобщаемая модель на основе трансформеров, которая одновременно реконструирует геометрию, цвет и семантику из многоплановых изображений в прямом проходе. Введена дифференцируемая многослойная схема извлечения семантических поверхностей для получения мешей из гибридных неявных полей, восстановленных нашей S-LRM. Кроме того, в конвейер интегрированы специализированная эффективная модель многоплановой диффузии и модуль итеративного многослойного уточнения поверхности, что способствует созданию высококачественных, разложимых 3D-персонажей. Обширные эксперименты демонстрируют наши передовые результаты в создании 3D-персонажей аниме, значительно превосходя существующие базовые модели по геометрии, текстуре и разложимости. StdGEN предлагает готовые к использованию семантически разложенные 3D-персонажи и позволяет гибкую настройку для широкого спектра приложений. Страница проекта: https://stdgen.github.io

Адаптивная Длина Токенизации Изображений через Рекуррентное Выделение

Текущие системы компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержания информации. Это контрастирует с человеческим интеллектом — и даже с большими языковыми моделями — которые распределяют различные объемы представлений в зависимости от энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщика-декодера рекурсивно обрабатывает токены двумерных изображений, превращая их в одномерные скрытые токены в ходе нескольких итераций рекуррентных проходов. Каждая итерация уточняет двумерные токены, обновляет существующие одномерные скрытые токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256. Мы проверяем наш токенизатор, используя метрики потери восстановления и FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям последующих задач. Рекуррентная обработка токенов с увеличением представительной емкости на каждой итерации показывает признаки специализации токенов, открывая потенциал для обнаружения объектов или частей.

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

Ограниченные Диффузионные Имплицитные Модели (CDIM)

Эта статья описывает эффективный алгоритм для решения шумных линейных обратных задач с использованием предобученных моделей диффузии. Расширяя парадигму имплицитных моделей диффузии с деноизацией (DDIM), мы предлагаем ограниченные имплицитные модели диффузии (CDIM), которые изменяют обновления диффузии для выполнения ограничения на конечный результат. Для задач без шума CDIM точно удовлетворяет ограничениям; в шумном случае мы обобщаем CDIM так, чтобы он удовлетворял точному ограничению на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченным DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая суперразрешение, деноизацию, заполнение, удаление размытия и реконструкцию облака точек 3D.

Лицевая Анонимизация Упрощена: Инновационный Подход с Использованием Диффузионных Моделей

Современные методы анонимизации лиц часто зависят от оценки потери идентичности, рассчитываемой моделями распознавания лиц, что может быть неточным и ненадежным. Кроме того, многие методы требуют дополнительных данных, таких как ключевые точки лица и маски, для управления процессом синтеза. В отличие от них, наш подход использует модели диффузии, опираясь только на потерю реконструкции, что устраняет необходимость в использовании ключевых точек лица или масок, при этом все еще производя изображения с детализированными, мелкими деталями. Мы проверили наши результаты на двух общественных бенчмарках с помощью как количественных, так и качественных оценок. Наша модель достигает наилучших результатов в трех ключевых областях: анонимизация личности, сохранение атрибутов лица и качество изображения. Помимо основной функции анонимизации, наша модель также может выполнять задачи замены лица путем включения дополнительного изображения лица в качестве ввода, демонстрируя свою универсальность и потенциал для различных применений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple.

Городская Гауссиана V2: Эффективная и Геометрически Точная Реконструкция Больших Сцен

Недавно метод 3D Gaussian Splatting (3DGS) произвел революцию в реконструкции полей яркости, демонстрируя эффективный и высококачественный синтез новых видов. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительной проблемой из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход к реконструкции крупномасштабных сцен, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Опираясь на благоприятные обобщающие возможности 2D Gaussian Splatting (2DGS), мы решаем проблемы сходимости и масштабируемости. В частности, мы реализуем технику плотнения на основе разложения градиентов и регрессии глубины, чтобы устранить размытые артефакты и ускорить сходимость. Для масштабирования мы вводим фильтр удлинения, который смягчает взрывное увеличение количества гауссиан, вызванное деградацией 2DGS. Кроме того, мы оптимизировали пайплайн CityGaussian для параллельного обучения, достигнув сжатия до 10 раз, экономии времени обучения как минимум на 25% и снижения использования памяти на 50%. Мы также установили стандартные геометрические эталоны для крупномасштабных сцен. Экспериментальные результаты показывают, что наш метод обеспечивает обещающий баланс между качеством изображения, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.