Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "consistency"

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

2DGS-Room: Реконструкция Интерьеров с Помощью 2D Гауссового Сплошения

Реконструкция внутренних сцен остается сложной из-за присущей сложности пространственных структур и распространенности областей без текстур. Недавние достижения в 3D-гауссовском сплаттинге улучшили синтез новых видов с ускоренной обработкой, но еще не обеспечили сопоставимую производительность в реконструкции поверхности. В этой статье мы представляем 2DGS-Room, новый метод, использующий 2D-гауссовский сплаттинг для высококачественной реконструкции внутренних сцен. В частности, мы используем механизм, управляемый семенами, чтобы контролировать распределение 2D-гауссианов, при этом плотность семенных точек динамически оптимизируется с помощью адаптивных механизмов роста и обрезки. Чтобы дополнительно улучшить геометрическую точность, мы включаем монокулярные глубины и нормалей как приори для обеспечения ограничений по деталям и бесструктурным регионам соответственно. Кроме того, используются ограничения многовидовой согласованности для уменьшения артефактов и дополнительного улучшения качества реконструкции. Обширные эксперименты на датасетах ScanNet и ScanNet++ демонстрируют, что наш метод достигает наилучшей производительности в реконструкции внутренних сцен.

Momentum-GS: Моментное гауссовское самоотделение для высококачественной реконструкции больших сцен

3D Gaussian Splatting продемонстрировал значительный успех в реконструкции сцен большого масштаба, однако существуют проблемы из-за высокого потребления памяти при обучении и накладных расходов на хранение. Гибридные представления, которые интегрируют неявные и явные характеристики, предлагают способ смягчить эти ограничения. Однако при применении параллельного блочного обучения возникают две критические проблемы, так как точность реконструкции ухудшается из-за снижения разнообразия данных при независимом обучении каждого блока, а параллельное обучение ограничивает количество деленных блоков доступным числом графических процессоров (GPU). Чтобы решить эти проблемы, мы предлагаем Momentum-GS, новый подход, который использует самодистилляцию на основе импульса, чтобы способствовать согласованности и точности между блоками, одновременно отделяя количество блоков от физического числа GPU. Наш метод поддерживает учительский гауссов декодер, обновляемый с помощью импульса, обеспечивая стабильную отправную точку во время обучения. Этот учитель предоставляет каждому блоку глобальную направляющую в манере самодистилляции, способствуя пространственной согласованности в реконструкции. Чтобы дополнительно обеспечить согласованность между блоками, мы внедряем взвешивание блоков, динамически регулируя вес каждого блока в зависимости от его точности реконструкции. Обширные эксперименты на сценах большого масштаба показывают, что наш метод последовательно превосходит существующие техники, достигая 12.8% улучшения в LPIPS по сравнению с CityGaussian с гораздо меньшим количеством деленных блоков и устанавливая новый эталон. Страница проекта: https://jixuan-fan.github.io/Momentum-GS_Page/

AnyDressing: Настраиваемая виртуальная примерка одежды с помощью латентных диффузионных моделей

Недавние достижения в генерации изображений, ориентированных на одежду, из текстовых и графических подсказок на основе диффузионных моделей, впечатляют. Однако существующие методы не поддерживают различные комбинации нарядов и испытывают трудности с сохранением деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их эффективность в различных сценариях. В данной статье мы сосредоточены на новой задаче, а именно на виртуальной одежде с множеством нарядов, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации нарядов и любых персонализированных текстовых подсказок. AnyDressing состоит из двух основных сетей, названных GarmentsNet и DressingNet, которые соответственно предназначены для извлечения детализированных характеристик одежды и генерации индивидуализированных изображений. В частности, мы предлагаем эффективный и масштабируемый модуль с названием Garment-Specific Feature Extractor в GarmentsNet, чтобы индивидуально кодировать текстуры одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем мы разрабатываем механизм адаптивного Dressing-Attention и новую стратегию обучения локализации одежды на уровне экземпляра в DressingNet, чтобы точно внедрять многократные характеристики одежды в соответствующие регионы. Этот подход эффективно интегрирует текстурные подсказки многослойной одежды в сгенерированные изображения и далее улучшает согласованность текстов и изображений. Кроме того, мы представляем стратегию обучения текстур, улучшенную за счет одежды, для повышения детализации отточенных текстур одежды. Благодаря нашему хорошо продуманному дизайну AnyDressing может служить модулем плагина для легкой интеграции с любыми расширениями управления сообществом для диффузионных моделей, улучшая разнообразие и контролируемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает самых современных результатов.

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

VideoGen-of-Thought: Коллаборативная структура для многослойной генерации видео

Текущие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многосъемочных, аналогичных фильмам видео. Существующие модели, обученные на данных большого масштаба с использованием мощных вычислительных ресурсов, неудивительно, что оказываются недостаточными для поддержания логического повествования и визуальной согласованности между несколькими кадрами связного сценария, так как они часто обучаются с целью одного кадра. С этой целью мы предлагаем VideoGen-of-Thought (VGoT), совместную архитектуру без обучения, разработанную специально для многосъемочной генерации видео. VGoT разработан с тремя целями: Генерация многосъемочного видео: мы делим процесс генерации видео на структурированную, модульную последовательность, включающую (1) Генерацию сценария, которая переводит краткую историю в детализированные подсказки для каждого кадра; (2) Генерацию ключевых кадров, ответственную за создание визуально согласованных ключевых кадров, верных изображению персонажей; и (3) Генерацию видео на уровне кадра, которая преобразует информацию из сценариев и ключевых кадров в кадры; (4) Механизм сглаживания, который обеспечивает согласованный многосъемочный результат. Разумный дизайн повествования: вдохновленный сценарным письмом для кино, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую согласованность, развитие персонажей и поток повествования на протяжении всего видео. Согласованность между кадрами: мы обеспечиваем временную и идентичностную согласованность, используя эмбеддинги, сохраняющие идентичность (IP), между кадрами, которые автоматически создаются из повествования. Кроме того, мы интегрируем механизм сглаживания между кадрами, который включает границу сброса, эффективно объединяющую латентные признаки соседних кадров, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты демонстрируют, что VGoT превосходит существующие методы генерации видео в производстве высококачественных, согласованных многосъемочных видео.

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

Несоответствия в Моделях Консистенции: Лучшее Решение ODE Не Обязательно Улучшает Качество Генерации

Хотя модели диффузии могут генерировать образцы поразительно высокого качества, их ограничивает дорогостоящая итеративная процедура выборки. Модели согласованности (CMs) недавно появились как перспективный метод дистилляции моделей диффузии, снижая стоимость выборки за счет генерации высококачественных образцов всего за несколько итераций. Цель дистилляции моделей согласованности заключается в решении обыкновенного дифференциального уравнения (ОДУ) потока вероятности, определенного существующей моделью диффузии. CMs не обучаются напрямую для минимизации ошибки по отношению к решателю ОДУ, вместо этого они используют более вычислительно эффективную целевую функцию. Чтобы изучить, насколько эффективно CMs решают ОДУ потока вероятности, и как влияет любая вызванная ошибка на качество генерируемых образцов, мы представляем Direct CMs, которые напрямую минимизируют эту ошибку. Интересно, что мы обнаружили, что Direct CMs уменьшают ошибку решения ОДУ по сравнению с CMs, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно CMs работают так хорошо изначально. Полный код доступен по адресу: https://github.com/layer6ai-labs/direct-cms.

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

MVPaint: Синхронизированная мульти-вью генерация для текстурирования 3D объектов

Текстурирование является ключевым этапом в рабочем процессе создания 3D-активов, который улучшает визуальное восприятие и разнообразие этих активов. Несмотря на последние достижения в области генерации текстур из текста (T2T), существующие методы часто дают неудовлетворительные результаты, в основном из-за локальных несоответствий, несогласованности по нескольким видам и их сильной зависимости от результатов разворачивания UV. Чтобы решить эти проблемы, мы предлагаем новую структуру генерации и доработки 3D текстурирования под названием MVPaint, которая способна создавать высококачественные, бесшовные текстуры, уделяя особое внимание согласованности многовидовой проекции. MVPaint в основном состоит из трех ключевых модулей: 1) **Синхронизированная генерация многовидовых изображений (SMG)**. На основе модели 3D-сетки MVPaint сначала одновременно генерирует изображения с нескольких видов, используя модель SMG, что приводит к грубым результатам текстурирования с непокрашенными частями из-за отсутствующих наблюдений. 2) **Пространственно-ориентированная 3D-ретушь (S3I)**. Для обеспечения полного текстурирования 3D, мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее не наблюдаемых областей. 3) **Уточнение UV (UVR)**. Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в UV-пространстве, который сначала выполняет сверхразрешение в UV-пространстве, за которым следует алгоритм сглаживания швов, ориентированный на пространство, для исправления пространственных несоответствий в текстурировании, вызванных разворачиванием UV. Кроме того, мы создаем две оценочные бенчмарки T2T: бенчмарк Objaverse T2T и бенчмарк GSO T2T, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие методы наилучших практик. В частности, MVPaint может генерировать высококачественные текстуры с минимальными проблемами Janus и значительно улучшенной согласованностью между видами.