Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "diffusion"

ChatDiT: Новый Подход к Генерации Изображений с Использованием Диффузионных Трансформеров

Недавние исследования arXiv:2410.15027 arXiv:2410.23775 подчеркивают присущие возможности генерации в контексте предобученных диффузионных трансформеров (DiTs), позволяя им бесперебойно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются благодаря конкатенации токенов самовнимания по нескольким входным и целевым изображениям, в сочетании с сгруппированными и замаскированными генерационными конвейерами. Исходя из этой базы, мы представляем ChatDiT - универсальную интерактивную рамку визуального генерации, которая использует предобученные диффузионные трансформеры в их исходной форме, не требуя дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT, чтобы создавать чередующиеся текстово-изображенческие статьи, многослойные книжки с картинками, редактировать изображения, разрабатывать производные объекты ИП или разрабатывать настройки дизайна персонажей, все это с помощью свободной естественной речи в одном или нескольких раундах общения. В своей основе ChatDiT использует систему многопользовательских агентов, состоящую из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одноступенчатые или многоступенчатые генерационные действия, и агента исполнения, который выполняет эти действия с использованием встроенного набора инструментов диффузионных трансформеров. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, состоящем из 100 реальных дизайнерских задач и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и безтренировочный подход, ChatDiT превосходит всех конкурентов, включая тех, кто специально разработан и обучен на обширных многозадачных наборах данных. Мы также выявляем ключевые ограничения предобученных DiT в нулевой адаптации к задачам. Мы публикуем весь код, агентов, результаты и промежуточные выходы, чтобы способствовать дальнейшим исследованиям на https://github.com/ali-vilab/ChatDiT.

Эффективные политики диффузии с помощью смеси экспертов для многозадачного обучения

Политики диффузии стали широко использоваться в обучении подражанию, предлагая несколько привлекательных свойств, таких как генерация многомодального и разрывного поведения. Поскольку модели становятся больше, чтобы захватить более сложные возможности, их вычислительные требования увеличиваются, как показано недавними законами масштабирования. Поэтому продолжение работы с текущими архитектурами будет представлять собой вычислительное ограничение. Для решения этой проблемы мы предлагаем смесь экспертов по денойзингу (MoDE) в качестве новой политики для обучения подражанию. MoDE превосходит современные высококлассные политики диффузии на основе трансформеров, обеспечивая при этом эффективное масштабирование параметров за счет разреженных экспертов и маршрутизации, условной от шума, снижая как активные параметры на 40%, так и затраты на вывод на 90% за счет кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом самовнимания, условным от шума, что позволяет более эффективно проводить денойзинг на разных уровнях шума. MoDE достигает выдающейся производительности по 134 задачам в четырех известных бенчмарках по обучению подражанию (CALVIN и LIBERO). Примечательно, что, предварительно обучив MoDE на разнообразных данных о робототехнике, мы достигаем 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики диффузии на основе CNN, так и трансформеров в среднем на 57% по 4 бенчмаркам, используя при этом на 90% меньше FLOPs и меньше активных параметров по сравнению с архитектурами диффузионных трансформеров по умолчанию. Кроме того, мы проводим комплексные анализы компонентов MoDE, предоставляя полезные сведения для проектирования эффективных и масштабируемых архитектур трансформеров для политик диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.

AniDoc: Упрощение создания анимации с помощью ИИ

Производство 2D-анимации следует стандартному рабочему процессу в отрасли, включая четыре основных этапа: разработку персонажей, анимацию основных кадров, промежуточную анимацию и раскраску. Наша работа сосредоточена на снижении трудозатрат в указанном процессе за счет использования потенциала все более мощного генеративного ИИ. Используя модели видеодифузии в качестве основы, AniDoc выступает в качестве инструмента для цветового обозначения видеолинейного искусства, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с заданными характеристиками персонажа. Наша модель использует сопоставление соответствия в качестве явного руководства, что обеспечивает высокую устойчивость к изменениям (например, в позе) между эталонным персонажем и каждым кадром линейного искусства. Кроме того, наша модель может даже автоматизировать процесс промежуточной анимации, что позволяет пользователям легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальные и конечные эскизы. Наш код доступен по адресу: https://yihao-meng.github.io/AniDoc_demo.

Marigold-DC: Нулевое завершение глубины с помощью направленной диффузии

Завершение глубины улучшает разреженные измерения глубины в плотные карты глубины, используя обычное изображение в качестве руководства. Существующие методы для этой сильно неправильно поставленной задачи работают в жестко ограниченных условиях и, как правило, с трудом применяются к изображениям вне области обучения или когда доступные измерения глубины разреженные, неравномерно распределенные или с переменной плотностью. Вдохновленные недавними достижениями в оценке глубины по одному изображению, мы переосмысливаем завершение глубины как создание карты глубины, обусловленной изображением, основанной на разреженных измерениях. Наш метод, Marigold-DC, основывается на заранее обученной модели латентной диффузии для оценки глубины по одному изображению и вставляет наблюдения глубины в качестве руководства во время тестирования через схему оптимизации, которая работает параллельно с итеративным выводом диффузии денойзинга. Метод демонстрирует отличную обобщающую способность без обучения на разнообразном диапазоне сред и эффективно обрабатывает даже крайне разреженное руководство. Наши результаты предполагают, что современные приоритеты глубины по единому изображению значительно усиливают завершение глубины: возможно, лучше рассматривать задачу как восстановление плотной глубины из (плотных) пикселей изображения, с использованием разреженной глубины в качестве руководства; вместо того, чтобы рассматривать это как инпейтинг (разреженной) глубины, с использованием изображения в качестве руководства. Веб-сайт проекта: https://MarigoldDepthCompletion.github.io/

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

Защита от подражания с использованием персонализированных диффузионных моделей

Недавние достижения в моделях диффузии революционизируют генерацию изображений, но представляют собой риски неправильного использования, такие как воспроизведение художественных произведений или создание дипфейков. Существующие методы защиты изображений, хотя и эффективны, испытывают трудности с балансировкой эффективности защиты, невидимости и задержки, что ограничивает практическое применение. Мы представляем предварительное обучение с помехами для снижения задержки и предлагаем подход смешивания помех, который динамически адаптируется к входным изображениям для минимизации ухудшения производительности. Наша новая стратегия обучения вычисляет потерю защиты в нескольких пространствах признаков VAE, в то время как адаптивная целевая защита на этапе вывода повышает надежность и невидимость. Эксперименты показывают сопоставимую эффективность защиты с улучшенной невидимостью и значительно сокращенным временем вывода. Код и демонстрация доступны по адресу https://webtoon.github.io/impasto

ColorFlow: Революция в цветизации изображений последовательностей

Автоматическая цветизация черно-белых последовательностей изображений с сохранением идентичности персонажей и объектов (ID) является сложной задачей с значительным спросом на рынке, например, для цветизации мультфильмов или комиксов. Несмотря на достижения в визуальной цветизации с использованием крупных генеративных моделей, таких как диффузионные модели, продолжают существовать проблемы с управляемостью и согласованностью идентичности, что делает существующие решения непригодными для промышленного применения. Чтобы решить эту задачу, мы предлагаем ColorFlow — трехэтапную диффузионную основу, адаптированную для цветизации последовательностей изображений в промышленном применении. В отличие от существующих методов, которые требуют дообучения на уровне ID или явной извлечения встраиваний ID, мы предлагаем новую надежную и обобщаемую цветизационную трубопроводную систему с использованием дополненной выборки для цветизации изображений с соответствующими цветовыми ссылками. Наша трубопроводная система также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности, а другая для цветизации, используя сильные стороны диффузионных моделей. Мы используем механизм самовнимания в диффузионных моделях для мощного обучения в контексте и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, комплексный эталон для цветизации на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательной цветизации изображений и потенциально принося пользу художественной индустрии. Мы публикуем наши коды и модели на нашей странице проекта: https://zhuang2002.github.io/ColorFlow/.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

Wonderland: Навигация по 3D-сценам из одного изображения

Эта работа касается сложного вопроса: как мы можем эффективно создавать высококачественные, масштабные 3D-сцены из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость в данных с нескольких точек зрения, продолжительная оптимизация для каждой сцены, низкое визуальное качество фонов и искаженные реконструкции в не видимых областях. Мы предлагаем новую схему, чтобы преодолеть эти ограничения. В частности, мы представляем масштабную модель реконструкции, которая использует латенты из модели диффузии видео для предсказания 3D-Гауссовских разбросов для сцен в прямом направлении. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с нескольких точек зрения, сохраняя при этом 3D-последовательность. Мы обучаем модель 3D-реконструкции работать в пространстве видео-латентов с помощью прогрессивной стратегии обучения, что позволяет эффективно генерировать высококачественные, масштабные и универсальные 3D-сцены. Обширные оценки на различных наборах данных демонстрируют, что наша модель значительно превосходит существующие методы генерации 3D-сцен с одного вида, особенно с изображениями из другой области. Впервые мы демонстрируем, что модель 3D-реконструкции может быть эффективно построена на основе латентного пространства модели диффузии для реализации эффективной генерации 3D-сцен.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

ObjectMate: Новый подход к вставке объектов и генерации изображений

В этой статье представлен метод без настройки для вставки объектов и генерации на основе предмета. Задача заключается в том, чтобы создать объект, имея несколько ракурсов, в сцене, заданной либо изображением, либо текстом. Существующие методы испытывают трудности с полным выполнением сложных целей задачи: (i) бесшовное внедрение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что для достижения этих целей требуется крупномасштабное обучение, но сбор достаточных данных вручную просто слишком дорог. Ключевое наблюдение в этой статье заключается в том, что многие массово производимые объекты повторяются на нескольких изображениях больших разметок данных, в разных сценах, позах и условиях освещения. Мы используем это наблюдение для создания массового обучения, извлекая наборы разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение, чтобы сопоставить описания объекта и сцены с составным изображением. Мы сравниваем наш метод, ObjectMate, с современными методами вставки объектов и генерации на основе предмета, используя одну или несколько ссылок. Эмпирически, ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с несколькими ссылками, ObjectMate не требует медленной настройки во время тестирования.

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

Neural Light Rig: Точное восстановление нормалей объектов и материалов с помощью многосветового диффузионного моделирования

Восстановление геометрии и материалов объектов из одного изображения представляет собой сложную задачу из-за его недоопределенного характера. В этой статье мы представляем Neural LightRig, новую структуру, которая усиливает внутреннюю оценку, используя вспомогательные условия многосветовой подсветки из 2D-диффузионных приоритетов. В частности, 1) сначала мы используем приоритеты освещения из моделей диффузии большого масштаба, чтобы построить нашу многосветовую модель диффузии на синтетическом наборе данных перераспределения с выделенными дизайнами. Эта модель диффузии генерирует множество согласованных изображений, каждое из которых освещено точечными источниками света в разных направлениях. 2) Используя эти разнообразные освещенные изображения для снижения неопределенности оценки, мы обучаем большую модель G-буфера с архитектурой U-Net для точного предсказания нормалей поверхности и материалов. Обширные эксперименты подтверждают, что наш подход значительно превосходит современные методы, что позволяет точно оценивать нормали поверхности и материалы PBR с яркими эффектами перераспределения освещения. Код и набор данных доступны на нашей странице проекта по адресу https://projects.zxhezexin.com/neural-lightrig.

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

SnapGen: Эффективные архитектуры и обучение высококачественных моделей текст-в-изображение для мобильных устройств

Существующие модели диффузии текст-в-изображение (T2I) сталкиваются с несколькими ограничениями, включая большие размеры моделей, медленное время выполнения и низкое качество генерации на мобильных устройствах. Цель этой статьи — решить все эти задачи, разработав исключительно маленькую и быструю модель T2I, которая генерирует изображения высокого разрешения и высокого качества на мобильных платформах. Мы предлагаем несколько методов для достижения этой цели. Во-первых, мы систематически рассматриваем выборы дизайна архитектуры сети, чтобы уменьшить параметры модели и задержку, при этом обеспечивая высокое качество генерации. Во-вторых, для дальнейшего улучшения качества генерации мы используем кросс-архитектурную дистилляцию знаний от гораздо большей модели, применяя многоуровневый подход для направления обучения нашей модели с нуля. В-третьих, мы обеспечиваем генерацию за несколько шагов, интегрируя противоречивую поддержку с дистилляцией знаний. Впервые наша модель SnapGen демонстрирует генерацию изображений размером 1024x1024 пикселя на мобильном устройстве за примерно 1.4 секунды. На ImageNet-1K наша модель с всего 372M параметрами достигает FID 2.06 для генерации 256x256 пикселей. На бенчмарках T2I (т.е. GenEval и DPG-Bench) наша модель с всего 379M параметрами превосходит крупномасштабные модели с миллиардами параметров при значительно более мелком размере (например, в 7 раз меньше, чем SDXL, в 14 раз меньше, чем IF-XL).

SynCamMaster: Синхронизация генерации видео с нескольких камер

Недавние достижения в моделях диффузии видео продемонстрировали исключительные способности в моделировании динамики реального мира и поддержании 3D-согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является крайне желаемой особенностью для таких приложений, как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многовидовой генерации одиночных объектов для 4D-реконструкции, нас интересует генерация видео открытого мира с произвольных точек зрения, включая 6 степеней свободы позы камеры. Для достижения этой цели мы предлагаем модуль «плагин и игра», который улучшает предварительно обученную модель «текст в видео» для генерации видео с нескольких камер, обеспечивая согласованность контента с различных точек зрения. В частности, мы представляем модуль синхронизации многовидов, чтобы поддерживать согласованность внешнего вида и геометрии между этими точками зрения. Учитывая нехватку качественных обучающих данных, мы разрабатываем гибридную схему обучения, которая использует изображения с нескольких камер и моникулярные видео для дополнения многокамерных видео, рендерящихся в Unreal Engine. Более того, наш метод позволяет увлекательные расширения, такие как переотрисовка видео с новых точек зрения. Мы также выпускаем набор данных синхронизированных многовидов видео, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.

Track4Gen: Улучшение генерации видео с помощью отслеживания точек

Хотя современные генераторы видео создают визуально насыщенный контент, они все еще сталкиваются с проблемой дрейфа внешнего вида, когда объекты постепенно теряют четкость или меняются непоследовательно в разных кадрах, нарушая визуальную согласованность. Мы предполагаем, что это происходит из-за отсутствия явного контроля в терминах пространственного слежения на уровне признаков. Мы предлагаем Track4Gen, генератор видео, обладающий пространственной осведомленностью, который сочетает в себе затраты на диффузию видео с отслеживанием точек в разных кадрах, обеспечивая улучшенное пространственное управление признаками диффузии. Track4Gen объединяет задачи генерации видео и отслеживания точек в одну сеть, внося минимальные изменения в существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединить генерацию видео и отслеживание точек, которые обычно рассматриваются как отдельные задачи. Наши обширные оценки показывают, что Track4Gen эффективно снижает дрейф внешнего вида, что приводит к временно стабильной и визуально согласованной генерации видео. Страница проекта: hyeonho99.github.io/track4gen

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текст-в-изображение (T2I) часто включает в себя инвертирование изображения в соответствующую карту шума. Однако только инверсия обычно недостаточна для получения удовлетворительных результатов, и поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но их нельзя бесшовно переносить между архитектурами моделей. Здесь мы представляем FlowEdit, метод редактирования на основе текста для предварительно обученных моделей T2I потока, который не требует инверсии, оптимизации и является независимым от модели. Наш метод строит ОДУ, которая напрямую отображает между исходными и целевыми распределениями (соответствующими исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход инверсии. Это приводит к результатам, соответствующим современным стандартам, как мы иллюстрируем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В обучении визуомоторной политики с помощью роботов модели на основе диффузии добились значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких шагов денойзинга и ограниченной гибкости из-за сложных ограничений. В этой статье мы представляем метод Coarse-to-Fine AutoRegressive Policy (CARP) — новую парадигму для обучения визуомоторной политики, которая переопределяет процесс генерации действий авторегрессии как подход «грубого в тонкое» на следующем уровне. CARP декомпозирует генерацию действий на два этапа: сначала автоэнкодер действий обучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет предсказание последовательности через авторегрессивный процесс «грубого в тонкое». Этот простой и интуитивно понятный подход производит высокоточные и плавные действия, соответствуя или даже превосходя производительность политик на основе диффузии, при этом сохраняя эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных условиях, включая сценарии одиночных и многозадачных задач на основе состояния и изображений, а также в реальных задачах. CARP достигает конкурентоспособных показателей успеха с улучшением до 10% и обеспечивает в 10 раз более быструю инференцию по сравнению с современными политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в роботизированных задачах.

Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

Глобальная визуальная геолокация предсказывает, где изображение было сделано на Земле. Поскольку изображения различаются по точности локализации, эта задача изначально связана с значительной степенью неоднозначности. Тем не менее, существующие подходы являются детерминистическими и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации, основанный на диффузии и совпадении Римановых потоков, где процесс денойзинга осуществляется непосредственно на поверхности Земли. Наша модель достигает передовых показателей на трех тестах визуальной геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы вводим задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным локациям, вместо одной точки. Мы представляем новые метрики и базовые показатели для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Код и модели будут доступны.

Turbo3D: Ультрабыстрое Генерирование 3D Моделей из Текста

Мы представляем Turbo3D, ультрабыструю систему текст в 3D, способную генерировать высококачественные активы с использованием гауссового сплэттинга менее чем за одну секунду. Turbo3D использует быстрый 4-ступенчатый генератор диффузий с 4 видами и эффективный рекомпозитор с гауссовым методом, оба работающие в латентном пространстве. 4-ступенчатый генератор с 4 видами является моделью студента, полученной с помощью нового подхода Dual-Teacher, который побуждает студента учиться согласованности видов у многовидового преподавателя и фотореализму у одновидового преподавателя. Перемещая входные данные рекомпозитора с гауссовым методом из пространстве пикселей в латентное пространство, мы устраняем лишнее время декодирования изображений и уменьшаем длину последовательности трансформатора наполовину для максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими эталонами, при этом работает за меньшую долю их времени.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

AnyDressing: Настраиваемая виртуальная примерка одежды с помощью латентных диффузионных моделей

Недавние достижения в генерации изображений, ориентированных на одежду, из текстовых и графических подсказок на основе диффузионных моделей, впечатляют. Однако существующие методы не поддерживают различные комбинации нарядов и испытывают трудности с сохранением деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их эффективность в различных сценариях. В данной статье мы сосредоточены на новой задаче, а именно на виртуальной одежде с множеством нарядов, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации нарядов и любых персонализированных текстовых подсказок. AnyDressing состоит из двух основных сетей, названных GarmentsNet и DressingNet, которые соответственно предназначены для извлечения детализированных характеристик одежды и генерации индивидуализированных изображений. В частности, мы предлагаем эффективный и масштабируемый модуль с названием Garment-Specific Feature Extractor в GarmentsNet, чтобы индивидуально кодировать текстуры одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем мы разрабатываем механизм адаптивного Dressing-Attention и новую стратегию обучения локализации одежды на уровне экземпляра в DressingNet, чтобы точно внедрять многократные характеристики одежды в соответствующие регионы. Этот подход эффективно интегрирует текстурные подсказки многослойной одежды в сгенерированные изображения и далее улучшает согласованность текстов и изображений. Кроме того, мы представляем стратегию обучения текстур, улучшенную за счет одежды, для повышения детализации отточенных текстур одежды. Благодаря нашему хорошо продуманному дизайну AnyDressing может служить модулем плагина для легкой интеграции с любыми расширениями управления сообществом для диффузионных моделей, улучшая разнообразие и контролируемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает самых современных результатов.

Negative Token Merging: Новые горизонты в управлении генерацией изображений

Текстовая адверсариальная направленность с использованием отрицательного запроса стала широко распространенным подходом для отдаления выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение адверсариального управления только с помощью текста может быть недостаточным для захвата сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя адверсариальное руководство непосредственно с использованием визуальных характеристик из эталонного изображения или других изображений в партии. В частности, мы представляем объединение отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который выполняет адверсариальное руководство, выборочно раздвигая совпадающие семантические характеристики (между эталоном и выходным генерацией) в процессе обратной диффузии. При использовании в отношении других изображений из той же партии мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное) без ущерба для качества выходного изображения. Аналогично, при использовании в отношении защищенного авторским правом актива по эталону, NegToMe помогает уменьшить визуальное сходство с защищенным контентом на 34,57%. NegToMe просто реализуется с использованием всего нескольких строк кода, использует лишь незначительно большее (<4%) время вывода и обобщается на разные архитектуры диффузии, такие как Flux, которые изначально не поддерживают использование отдельного отрицательного запроса. Код доступен по адресу https://negtome.github.io

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

OneShot, OneTalk: Создание Говорящего Аватара из Одного Изображения

Создание реалистичных и анимируемых аватаров по-прежнему требует минут многовидовых или моносимультанных самооборачивающихся видео, и большинство методов не обеспечивают точного управления жестами и выражениями. Чтобы преодолеть эту границу, мы решаем задачу построения говорящего аватара с полным телом на основе одного изображения. Мы предлагаем новый конвейер, который решает две критически важные проблемы: 1) сложное динамическое моделирование и 2) обобщение на новые жесты и выражения. Чтобы достичь плавного обобщения, мы используем последние модели диффузии изображения в видео с учетом позы для генерации несовершенных кадров видео в качестве псевдоназваний. Чтобы преодолеть задачу динамического моделирования, возникающую из-за несоответствий и шумных псевдовидео, мы вводим тесно связанное представление гибридного аватара 3DGS-сетки и применяем несколько ключевых регуляризаций для смягчения несоответствий, вызванных несовершенными метками. Обширные эксперименты с разнообразными объектами показывают, что наш метод позволяет создавать фотореалистичный, точно анимируемый и выразительный говорящий аватар с полным телом всего на основе одного изображения.

SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей

Недавние подходы дали обнадеживающие результаты в дистилляции многоступенчатых моделей диффузии текста в изображение в одноступенчатые. Современная эффективная техника дистилляции, а именно SwiftBrushv2 (SBv2), даже превосходит производительность модель-учителя при ограниченных ресурсах. Однако наше исследование показывает ее нестабильность при работе с разными основами моделей диффузии из-за использования фиксированной шкалы управления внутри потерь Вариационной Дистилляции Оценки (VSD). Еще одной слабостью существующих одноступенчатых моделей диффузии является отсутствие поддержки отрицательной подсказки, что критически важно в практической генерации изображений. Эта статья представляет SNOOPI, новую структуру, разработанную для решения этих ограничений путем улучшения управления в одноступенчатых моделях диффузии как в процессе обучения, так и в процессе вывода. Во-первых, мы эффективно увеличиваем стабильность обучения через Правильное Управление-SwiftBrush (PG-SB), которое использует подход классификации без-guidance с произвольной шкалой. Путем изменения шкалы управления у обеих модель-учителей мы расширяем их распределения выходных данных, что приводит к более надежным потерям VSD, которые позволяют SB эффективно работать с разнообразными основами, сохраняя при этом конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Вниманием Направленным Вперёд Отрицательно (NASA), который интегрирует отрицательные подсказки в одноступенчатые модели диффузии через перекрестное внимание, чтобы подавить нежелательные элементы в генерируемых изображениях. Наши экспериментальные результаты показывают, что предлагаемые нами методы значительно улучшают базовые модели по различным метрикам. Удивительно, но мы достигаем балла HPSv2 31.08, устанавливая новую современную эталонную оценку для одноступенчатых моделей диффузии.

Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Модели диффузии были применены для завершения сцен 3D LiDAR благодаря их высокой стабильности обучения и качеству завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В этой статье предлагается новый метод дистилляции, адаптированный для моделей завершения сцен 3D LiDAR, названный ScoreLiDAR, который достигает эффективного и качественного завершения сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньше шагов после дистилляции. Для улучшения качества завершения мы также вводим новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены 3D LiDAR. Потеря содержит терм, ограничивающий целостную структуру сцены, и точечный терм, ограничивающий ключевые контрольные точки и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунд на кадр (>5 раз) на SemanticKITTI и достигает превосходной производительности по сравнению с современными моделями завершения сцен 3D LiDAR. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

MIDI: Многоэкземплярное диффузионное моделирование для генерации 3D-сцен из одного изображения

Данная работа представляет MIDI, новую парадигму для композиционной генерации 3D-сцен из одного изображения. В отличие от существующих методов, основанных на техниках реконструкции или поиска, или недавних подходов, использующих многоступенчатую генерацию объектов по отдельности, MIDI расширяет предварительно обученные модели генерации изображений в 3D-объекты до моделей диффузии с несколькими экземплярами, позволяя одновременно генерировать несколько 3D-экземпляров с точными пространственными отношениями и высокой обобщаемостью. В своей основе MIDI включает новую механизм многоэкземплярного внимания, который эффективно улавливает взаимодействия между объектами и пространственную когерентность прямо в процессе генерации, без необходимости в сложных многоступенчатых процессах. Метод использует частичные изображения объектов и глобальный контекст сцены в качестве входных данных, непосредственно моделируя завершение объектов во время генерации 3D. Во время обучения мы эффективно контролируем взаимодействия между 3D-экземплярами, используя ограниченное количество данных на уровне сцены, при этом включая данные по одиночным объектам для регуляризации, сохраняя тем самым способность к обобщению, присущую предварительно обученным моделям. MIDI демонстрирует достижения на уровне современного искусства в генерации изображений в сцены, что подтверждается оценками на синтетических данных, реальных сценах и стилизованных изображениях сцен, созданных моделями диффузии текстов в изображения.

NitroFusion: Высококачественная одноступенчатая диффузия через динамическое противостоящее обучение

Мы представляем NitroFusion, принципиально новый подход к одномоментной диффузии, который достигает высокого качества генерации с помощью динамической антагонистической структуры. Хотя одномоментные методы предлагают значительные преимущества в скорости, они, как правило, страдают от ухудшения качества по сравнению с многомоментными аналогами. Точно так же, как панель критиков искусства предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход сохраняет большой пул специализированных дискриминаторов, которые вместе направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в определенных аспектах качества на разных уровнях шума, предоставляя разнообразную обратную связь, которая позволяет добиться высококачественной одномоментной генерации. Наша структура сочетает: (i) динамический пул дискриминаторов со специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов, и (iii) глобально-локальные дискриминаторы для оценки качества на различных масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникально поддерживает гибкое развертывание через усовершенствование снизу-вверх, позволяя пользователям динамически выбирать между 1-4 шагами денойзинга с использованием одной и той же модели для прямого компромисса между качеством и скоростью. Через комплексные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одномоментные методы по множеству оценочных метрик, особенно выделяясь в сохранении тонких деталей и глобальной согласованности.

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

WF-VAE: Улучшение Видео VAE с помощью Энергетического Потока на Основе Вейвлетов для Моделей Диффузии Видео в Латентном Пространстве

Видеографический вариационный автокодировщик (VAE) кодирует видео в низкоразмерное латентное пространство, становясь ключевым компонентом большинства латентных моделей диффузии видео (LVDM), чтобы снизить затраты на обучение модели. Однако, с увеличением разрешения и длительности генерируемых видео, стоимость кодирования видеографических VAE становится ограничивающим фактором при обучении LVDM. Более того, метод блокового инференса, используемый большинством LVDM, может привести к дискретности латентного пространства при обработке длинных видео. Ключ к решению вычислительного узкого места заключается в разбиении видео на отдельные компоненты и эффективном кодировании критической информации. Преобразование вейвлетов может разложить видео на несколько компонент в частотной области и значительно повысить эффективность, поэтому мы предлагаем Wavelet Flow VAE (WF-VAE), автоэнкодер, который использует многоуровневое вейвлет-преобразование для облегчения потока низкочастотной энергии в латентное представление. Кроме того, мы вводим метод под названием Causal Cache, который поддерживает целостность латентного пространства во время блокового инференса. По сравнению с современными видеографическими VAE, WF-VAE демонстрирует превосходные результаты как по метрике PSNR, так и по метрике LPIPS, достигая в 2 раза более высокой пропускной способности и в 4 раза меньшего потребления памяти при сохранении конкурентоспособного качества реконструкции. Наш код и модели доступны по адресу https://github.com/PKU-YuanGroup/WF-VAE.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

TinyFusion: Ускорение диффузионных трансформеров с помощью обрезки слоев

Диффузионные трансформаторы продемонстрировали выдающиеся способности в генерации изображений, но часто имеют чрезмерную параметризацию, что приводит к значительным накладным расходам на вывод в реальных приложениях. В этой работе мы представляем TinyFusion — метод обрезки глубины, предназначенный для удаления избыточных слоев из диффузионных трансформаторов с помощью обучения от начала до конца. Основной принцип нашего подхода заключается в создании обрезанной модели с высокой восстановимостью, что позволяет ей восстанавливать высокую производительность после дообучения. Для этого мы представляем дифференцируемую технику выборки, чтобы сделать обрезку обучаемой, в паре с совместно оптимизируемым параметром для имитации будущего дообучения. В то время как предыдущие работы сосредотачиваются на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после дообучения. Экспериментальные результаты показывают, что эта обучаемая парадигма предлагает значительные преимущества для обрезки слоев диффузионных трансформаторов, превосходя существующие методы, основанные на важности и ошибках. Кроме того, TinyFusion демонстрирует сильную генерализацию на различных архитектурах, таких как DiT, MAR и SiT. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформатор с затратами менее 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с индексом FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.

TeaCache: Ускорение Моделей Диффузии Видео

Как фундаментальная основа для генерации видео, модели диффузии сталкиваются с проблемой низкой скорости вывода из-за последовательного характера денойзинга. Предыдущие методы ускоряют модели, кэшируя и повторно используя выходные данные модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходными данными модели неравномерны на временных шагах, что затрудняет выбор соответствующих выходных данных модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В этом исследовании мы представляем Кэш, учитывающий встроения временных шагов (TeaCache), свободный от обучения подход кэширования, который оценивает и использует колеблющиеся различия между выходными данными модели на временных шагах. Вместо того чтобы напрямую использовать временные выходные данные модели, TeaCache сосредотачивается на входных данных модели, которые имеют сильную корреляцию с выходными данными модели, не имея при этом значительных вычислительных затрат. Сначала TeaCache модулирует шумные входные данные, используя встраивания временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходных данных модели. Затем TeaCache вводит стратегию переоценки для уточнения оцененных различий и использует их для указания кэширования выходных данных. Эксперименты показывают, что TeaCache достигает до 4,41x ускорения по сравнению с Open-Sora-Plan при незначительном (-0,07% Vbench score) ухудшении качества изображения.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

FAM Diffusion: Модели диффузии с модуляцией частоты и внимания для генерации изображений высокого разрешения

Модели диффузии хорошо справляются с генерацией изображений высокого качества. Однако они эффективны только при работе с разрешением, используемым во время обучения. Инференс при масштабированном разрешении приводит к повторяющимся паттернам и структурным искажениям. Переобучение на более высоких разрешениях быстро становится непрактичным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, весьма желательны. Предыдущие работы страдали от частых артефактов и часто вносили большие задержки. Мы предлагаем два простых модуля, которые вместе решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль внимания (AM), который улучшает согласованность локальных текстурных паттернов, проблема, в значительной степени игнорируемая в предыдущих работах. Наш метод, названный Fam диффузия, может бесшовно интегрироваться в любую латентную модель диффузии и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в борьбе со структурными и локальными артефактами, в то время как количественные результаты показывают передовые достижения. Кроме того, наш метод избегает избыточных трюков инференса для улучшенной согласованности, таких как основанная на патчах или прогрессивная генерация, что приводит к незначительным задержкам.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

S,POT,L,IGHT: Управляемое перерисовывание объектов с использованием теней

Недавние исследования показали, что модели диффузии могут быть использованы в качестве мощных нейронных рендеринговых движков, которые могут быть использованы для вставки виртуальных объектов в изображения. Однако, в отличие от типичных физических рендеров, нейронные рендеринговые движки ограничены отсутствием ручного контроля над настройками освещения, что часто является важным для улучшения или персонализации желаемого результата изображения. В этой статье мы показываем, что точный контроль освещения можно достичь для переосвещения объекта, просто указав желаемые тени объекта. Удивительным образом мы показываем, что внедрение только тени объекта в предобученный основанный на диффузии нейронный рендерер позволяет ему точно создавать тени объекта в соответствии с желаемой позицией света, при этом правильно гармонизируя объект (и его тень) в целевом фоновом изображении. Наш метод, SpotLight, использует существующие подходы к нейронному рендерингу и достигает управляемых результатов переосвещения без дополнительного обучения. В частности, мы демонстрируем его использование с двумя нейронными рендерерами из недавней литературы. Мы показываем, что SpotLight достигает превосходных результатов композитинга объектов, как количественно, так и перцептивно, что подтверждено исследованием пользователей, превосходя существующие модели на основе диффузии, специально разработанные для переосвещения.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.

TEXGen: Генеративная модель диффузии для текстур сеток

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D активов, мало исследований посвящено изучению непосредственно в пространстве текстур, особенно на больших наборах данных. В этой работе мы отходим от традиционного подхода, который полагается на предварительно обученные 2D модели диффузии для оптимизации текстур 3D в режиме тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в самом UV-пространстве текстур. Впервые мы обучаем большую модель диффузии, способную напрямую генерировать текстурные карты высокого разрешения в режиме прямого прохода. Для обеспечения эффективного обучения в UV-пространстве высокого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свёртки на UV-картах с слоями внимания на облаках точек. Используя эту архитектурную конструкцию, мы обучаем модель диффузии с 700 миллионами параметров, которая может генерировать UV-текстурные карты, руководствуясь текстовыми запросами и изображениями с одного ракурса. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая текстово-направленное заполнение текстур, заполнение текстур с разреженными видами и синтез текстур, управляемый текстом. Страница проекта доступна по адресу http://cvmi-lab.github.io/TEXGen/.

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

AnchorCrafter: Создание Интерактивных Видео с Кибер-Анкорами для Продвижения Товаров

Автоматическая генерация видео продвижения товаров в стиле анкоров открывает перспективные возможности в онлайн-коммерции, рекламе и взаимодействии с потребителями. Однако, несмотря на значительные достижения в генерации видео человека под руководством поз, это остается сложной задачей. В решении этой проблемы мы определяем интеграцию взаимодействий между человеком и объектом (HOI) в генерацию видео человека под руководством поз как ключевой вопрос. Для этого мы представляем AnchorCrafter, новую систему на основе диффузии, предназначенную для создания 2D-видео с участием конкретного человека и кастомизированного объекта, достигая высокой визуальной точности и управляемых взаимодействий. В частности, мы предлагаем два ключевых новшества: восприятие внешности HOI, которое улучшает распознавание внешнего вида объекта с произвольных многоплановых перспектив и разделяет внешность объекта и человека, и инъекцию движения HOI, которая позволяет сложным взаимодействиям между человеком и объектом, преодолевая вызовы в условиях траектории объекта и управлении взаимными перекрытиями. Кроме того, мы вводим потерю перераспределения веса регионов HOI, учебную цель, которая улучшает изучение деталей объекта. Многочисленные эксперименты демонстрируют, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и осведомленности о форме объекта, одновременно поддерживая согласованность внешнего вида и движения человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

Вот перевод текста на русский язык: --- **Тема: Направленное восстановление изображений** выдвинуто в качестве популярной задачи в области редактирования изображений на фоне последних достижений в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с поддержанием возможности редактирования вставленных объектов. В ответ на это, данная статья представляет **DreamMix** — генеративную модель на основе диффузии, которая способна вставлять целевые объекты в заданные сцены по указанным пользователем местам, одновременно позволяя произвольные текстово-направленные изменения их атрибутов. В частности, мы используем продвинутые базовые модели восстановления изображений и вводим фреймворк локально-глобального восстановления для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Дополнительно, мы предлагаем механизм декомпозиции атрибутов (ADM) и модуль подстановки текстовых атрибутов (TAS), чтобы улучшить разнообразие и дискриминативную способность текстового руководства по атрибутам. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и восстановление малых объектов. Наш код доступен в открытом доступе по адресу: https://github.com/mycfhs/DreamMix.

Материал для всего: Генерация материалов для любых 3D объектов с помощью диффузии

Мы представляем Material Anything, полностью автоматизированный унифицированный фреймворк для диффузии, предназначенный для создания физически обоснованных материалов для 3D объектов. В отличие от существующих методов, которые полагаются на сложные пайплайны или оптимизации, специфичные для каждого случая, Material Anything предлагает надежное, комплексное решение, адаптируемое к объектам при различных условиях освещения. Наш подход использует предварительно обученную модель диффузии изображений, улучшенную за счет трехголовой архитектуры и потерь при рендеринге, чтобы повысить стабильность и качество материалов. Кроме того, мы вводим маски уверенности в качестве динамического переключателя внутри модели диффузии, что позволяет ей эффективно работать как с текстурированными, так и с нетекстурированными объектами при различных условиях освещения. Используя стратегию прогрессивной генерации материалов, руководствуясь этими масками уверенности, а также рефайнером материалов в пространстве UV, наш метод обеспечивает последовательные, готовые к UV-использованию материалы. Обширные эксперименты демонстрируют, что наш подход превосходит существующие методы по широкому диапазону категорий объектов и условий освещения.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

Стильные решения: SNR-сэмплер для генерации изображений с учетом стиля

Современные крупномасштабные диффузионные модели создают высококачественные изображения, но сталкиваются с трудностями при обучении новым, индивидуализированным художественным стилям, что ограничивает создание уникальных стилевых шаблонов. Наиболее перспективным подходом является тонкая настройка с использованием референсных изображений, однако часто это делается слепо, применяя те же цели и распределения уровней шума, что и при предварительном обучении, что приводит к неоптимальному соответствию стилю. Мы предлагаем новый метод - "самплер SNR, дружественный к стилю", который агрессивно смещает распределение отношения сигнал-шум (SNR) в сторону более высоких уровней шума во время тонкой настройки, фокусируясь на уровнях шума, где проявляются стилистические особенности. Это позволяет моделям лучше захватывать уникальные стили и генерировать изображения с более высокой стилевой согласованностью. Наш метод позволяет диффузионным моделям учиться и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы демонстрируем возможность создания стилей, таких как персональные акварельные картины, минималистичные плоские мультфильмы, 3D-визуализации, многопанельные изображения и мемы с текстом, тем самым расширяя диапазон генерации, основанной на стиле.

Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

Поле синтеза новых видов сделало значительные шаги вперед благодаря развитию методов полей яркости. Однако большинство техник полей яркости гораздо лучше справляются с интерполяцией новых видов, чем с экстраполяцией, где синтезируемые новые виды значительно отличаются от наблюдаемых тренировочных видов. Мы разработали ViewExtrapolator, подход к синтезу новых видов, который использует генеративные приоритеты стабильной видеодиффузии (SVD) для реалистичной экстраполяции новых видов. Переработав процесс удаления шума SVD, ViewExtrapolator улучшает качество видов, подверженных артефактам, которые отображаются полями яркости, значительно повышая ясность и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором новых видов, который может работать с различными типами 3D-рендеринга, такими как виды, отображаемые из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, ViewExtrapolator не требует тонкой настройки SVD, что делает его эффективным по данным и вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции новых видов. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео, которые не соответствуют текстовым запросам, особенно когда запросы описывают сложные сцены с множеством объектов и атрибутов. Чтобы решить эту проблему, мы представляем VideoRepair — новую модельно-независимую, не требующую обучения систему уточнения видео, которая автоматически выявляет тонкие несоответствия между текстом и видео и генерирует явную пространственную и текстовую обратную связь, позволяя модели T2V проводить целенаправленные, локализованные уточнения. VideoRepair состоит из четырех этапов: На (1) этапе оценки видео мы обнаруживаем несоответствия, генерируя детализированные оценочные вопросы и отвечая на них с помощью MLLM. На (2) этапе планирования уточнений мы идентифицируем правильно сгенерированные объекты и затем создаем локализованные запросы для уточнения других областей видео. Затем на (3) этапе разложения регионов мы сегментируем правильно сгенерированную область с помощью комбинированного модуля привязки. Мы регенерируем видео, корректируя несоответствующие регионы и сохраняя правильные области на (4) этапе локализованного уточнения. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench), VideoRepair значительно превосходит недавние базовые модели по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

FlipSketch: От простых набросков к анимированным шедеврам

Анимации в стиле скетчей предлагают мощное средство для визуального рассказывания историй, от простых набросков в блокноте до профессиональных студийных производств. В то время как традиционная анимация требует команд квалифицированных художников для рисования ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные пути движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает волшебство анимации из блокнота - просто нарисуйте вашу идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует предварительные знания о движении из моделей диффузии текста в видео, адаптируя их для создания анимации скетчей через три ключевые инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность вводимого скетча через уточнение шума, и (iii) двойное внимание, которое позволяет плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические трансформации скетчей, захватывая выразительную свободу традиционной анимации. В результате получается интуитивно понятная система, которая делает создание анимации скетчей так же простым, как рисование и описание, сохраняя при этом художественную сущность ручной анимации.

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

FitDiT: Прорыв в Виртуальной Примерке с Учетом Деталей и Размеров Одежды

Хотя технология виртуальной примерки на основе изображений достигла значительного прогресса, новые подходы все еще сталкиваются с вызовами при создании высококачественных и надежных изображений подгонки в разных сценариях. Эти методы часто испытывают трудности с такими аспектами, как сохранение текстуры и подгонка по размеру, что ограничивает их общую эффективность. Для решения этих проблем мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для высокоточной виртуальной примерки с использованием Diffusion Transformers (DiT), которые выделяют больше параметров и внимания на высокоразрешенные характеристики. Во-первых, для дальнейшего улучшения сохранения текстуры мы вводим экстрактор текстуры одежды, который включает в себя эволюцию приоритетов одежды для тонкой настройки характеристик одежды, что помогает лучше улавливать богатые детали, такие как полоски, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения деталей одежды с высокой частотой. Для решения проблемы подгонки по размеру мы используем стратегию расширенной-расслабленной маски, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю маскированную область при примерке через категории. Оснащенный вышеуказанным дизайном, FitDiT превосходит все базовые модели как по качественным, так и по количественным оценкам. Он превосходно справляется с созданием хорошо сидящей одежды с фотореалистичными и сложными деталями, при этом достигая конкурентоспособных времен вывода 4.57 секунды для одного изображения 1024x768 после оптимизации структуры DiT, превосходя существующие методы.

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

Гауссиан Энисинг: Интерактивная генерация 3D с помощью точечного облака и латентной диффузии

В то время как создание трехмерного контента значительно продвинулось, существующие методы все еще сталкиваются с проблемами, связанными с форматами ввода, дизайном латентного пространства и представлениями вывода. В данной статье представлена новая 3D генеративная структура, которая решает эти проблемы, предлагая масштабируемое, высококачественное 3D-генерация с интерактивным латентным пространством, структурированным как облако точек. Наша структура использует вариационный автокодировщик (VAE) с многовидовыми позированными RGB-D (глубина)-N (нормали) визуализациями в качестве входных данных, применяя уникальный дизайн латентного пространства, который сохраняет информацию о 3D-форме, и включает каскадную модель диффузии латентного пространства для улучшения разделения формы и текстуры. Предлагаемый метод, GaussianAnything, поддерживает многомодальное условное 3D-генерация, позволяя использовать в качестве входных данных облака точек, подписи и изображения с одной или нескольких точек зрения. Особенно стоит отметить, что новое латентное пространство естественно обеспечивает разделение геометрии и текстуры, что позволяет проводить редактирование, учитывающее 3D. Экспериментальные результаты показывают эффективность нашего подхода на нескольких наборах данных, превосходя существующие методы как в текстовой, так и в изображения-условной 3D-генерации.

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.

Несоответствия в Моделях Консистенции: Лучшее Решение ODE Не Обязательно Улучшает Качество Генерации

Хотя модели диффузии могут генерировать образцы поразительно высокого качества, их ограничивает дорогостоящая итеративная процедура выборки. Модели согласованности (CMs) недавно появились как перспективный метод дистилляции моделей диффузии, снижая стоимость выборки за счет генерации высококачественных образцов всего за несколько итераций. Цель дистилляции моделей согласованности заключается в решении обыкновенного дифференциального уравнения (ОДУ) потока вероятности, определенного существующей моделью диффузии. CMs не обучаются напрямую для минимизации ошибки по отношению к решателю ОДУ, вместо этого они используют более вычислительно эффективную целевую функцию. Чтобы изучить, насколько эффективно CMs решают ОДУ потока вероятности, и как влияет любая вызванная ошибка на качество генерируемых образцов, мы представляем Direct CMs, которые напрямую минимизируют эту ошибку. Интересно, что мы обнаружили, что Direct CMs уменьшают ошибку решения ОДУ по сравнению с CMs, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно CMs работают так хорошо изначально. Полный код доступен по адресу: https://github.com/layer6ai-labs/direct-cms.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

Edify Image: Высококачественная Генерация Изображений с Использованием Моделей Диффузии в Пиксельном Пространстве

Мы представляем Edify Image, семейство диффузионных моделей, способных генерировать фотореалистичное изображение с пиксельной точностью. Edify Image использует каскадные модели диффузии в пространстве пикселей, обученные с использованием новаторского процесса лапласианской диффузии, при котором сигналы изображения в различных частотных полосах затухают с разной скоростью. Edify Image поддерживает широкий спектр применений, включая синтез изображения из текста, повышение разрешения до 4K, ControlNets, генерацию 360-градусных HDR панорам и тонкую настройку для кастомизации изображений.

OМНИ-ЕДИТ: Создание универсальных моделей редактирования изображений через специализированный надзор

Методы редактирования изображений на основе инструкций показали значительный потенциал, обучая модели диффузии на автоматически синтезированных или вручную аннотированных парах изображений для редактирования. Однако эти методы всё ещё далеки от практического применения в реальной жизни. Мы выделяем три основных вызова, которые способствуют этому разрыву. Во-первых, существующие модели обладают ограниченными навыками редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов, что связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одной низкой разрешенностью и фиксированным соотношением сторон, что ограничивает универсальность для обработки реальных сценариев использования. В данной статье мы представляем \omniedit, который является всесильным редактором, способным обрабатывать семь различных задач редактирования изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырёх частей: (1) \omniedit обучается с использованием супервизии от семи различных специализированных моделей, чтобы обеспечить охват задач. (2) Мы используем важностное выборочное обучение на основе оценок, предоставляемых крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) Мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования. (4) Мы предоставляем изображения с различными соотношениями сторон, чтобы наша модель могла обрабатывать любые изображения из реального мира. Мы создали тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для покрытия различных задач. Как автоматическая оценка, так и оценка людьми показывают, что \omniedit значительно превосходит все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/.

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

StdGEN: Генерация 3D персонажей с семантическим разложением из одной изображения

Мы представляем StdGEN, инновационный конвейер для создания семантически разложенных высококачественных 3D-персонажей из отдельных изображений, что открывает широкие возможности для использования в виртуальной реальности, играх и кинопроизводстве и т.д. В отличие от предыдущих методов, которые сталкивались с ограниченной разложимостью, неудовлетворительным качеством и долгим временем оптимизации, StdGEN обладает разложимостью, эффективностью и производительностью; то есть он создает детализированные 3D-персонажи с разделёнными семантическими компонентами, такими как тело, одежда и волосы, за три минуты. В основе StdGEN лежит наша предложенная модель Semantic-aware Large Reconstruction Model (S-LRM), обобщаемая модель на основе трансформеров, которая одновременно реконструирует геометрию, цвет и семантику из многоплановых изображений в прямом проходе. Введена дифференцируемая многослойная схема извлечения семантических поверхностей для получения мешей из гибридных неявных полей, восстановленных нашей S-LRM. Кроме того, в конвейер интегрированы специализированная эффективная модель многоплановой диффузии и модуль итеративного многослойного уточнения поверхности, что способствует созданию высококачественных, разложимых 3D-персонажей. Обширные эксперименты демонстрируют наши передовые результаты в создании 3D-персонажей аниме, значительно превосходя существующие базовые модели по геометрии, текстуре и разложимости. StdGEN предлагает готовые к использованию семантически разложенные 3D-персонажи и позволяет гибкую настройку для широкого спектра приложений. Страница проекта: https://stdgen.github.io

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

ReCapture: Генерация Видео с Новыми Траекториями Камеры для Пользовательских Видео

В последнее время прорывы в моделировании видео позволили контролировать траектории камеры в генерируемых видео. Однако эти методы нельзя напрямую применять к видео, предоставленным пользователями, которые не были сгенерированы видеомоделью. В данной статье мы представляем ReCapture, метод для создания новых видео с новыми траекториями камеры из одного видео, предоставленного пользователем. Наш метод позволяет нам перегенерировать эталонное видео, сохраняя все его существующие сценические движения, с совершенно разных углов и с кинематографическими движениями камеры. Примечательно, что с помощью нашего метода мы также можем правдоподобно воспроизвести части сцены, которые не были видны в эталонном видео. Наш метод работает следующим образом: (1) генерируется шумное опорное видео с новой траекторией камеры с использованием моделей многовидовой диффузии или рендеринга на основе глубины облака точек, а затем (2) опорное видео перегенерируется в чистое и временно последовательное видео с измененным углом обзора с помощью нашей предложенной техники тонкой настройки видео с маскированием.

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

GarVerseLOD: Высококачественная 3D реконструкция одежды из одной фотографии с использованием набора данных с уровнями детализации

Нейронные неявные функции привнесли впечатляющие улучшения в современные методы цифровизации одетых людей на основе нескольких или даже одного изображения. Однако, несмотря на прогресс, текущие методы всё ещё сталкиваются с трудностями в обобщении на невидимые изображения с сложной деформацией одежды и позами тела. В этой работе мы представляем GarVerseLOD, новый набор данных и платформу, которые открывают путь к достижению беспрецедентной устойчивости в высококачественной реконструкции 3D одежды из одного неограниченного изображения. Вдохновлённые недавним успехом крупных генеративных моделей, мы считаем, что ключ к решению проблемы обобщения лежит в количестве и качестве данных о 3D одежде. С этой целью GarVerseLOD собрал 6000 высококачественных моделей одежды с детально проработанной геометрией, созданными профессиональными художниками. Кроме масштаба обучающих данных, мы заметили, что наличие разделённых гранулярностей геометрии может сыграть важную роль в улучшении способности к обобщению и точности вывода обученной модели. Поэтому мы разработали GarVerseLOD как иерархический набор данных с уровнями детализации (LOD), охватывающий от стилизованных форм без деталей до одежды с деталями, адаптированными под позы и выровненные по пикселям. Это позволяет нам сделать эту задачу с высокой степенью недоопределённости решаемой, разбивая вывод на более простые задачи, каждая из которых ограничена меньшим пространством поиска. Для того чтобы GarVerseLOD могла хорошо обобщаться на реальные изображения, мы предлагаем новый подход к маркировке, основанный на условных моделях диффузии, для генерации обширного набора парных изображений для каждой модели одежды с высокой фотореалистичностью. Мы оценили наш метод на огромном количестве изображений в реальных условиях. Экспериментальные результаты показывают, что GarVerseLOD может генерировать отдельные элементы одежды значительно лучшего качества, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

Ограниченные Диффузионные Имплицитные Модели (CDIM)

Эта статья описывает эффективный алгоритм для решения шумных линейных обратных задач с использованием предобученных моделей диффузии. Расширяя парадигму имплицитных моделей диффузии с деноизацией (DDIM), мы предлагаем ограниченные имплицитные модели диффузии (CDIM), которые изменяют обновления диффузии для выполнения ограничения на конечный результат. Для задач без шума CDIM точно удовлетворяет ограничениям; в шумном случае мы обобщаем CDIM так, чтобы он удовлетворял точному ограничению на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченным DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая суперразрешение, деноизацию, заполнение, удаление размытия и реконструкцию облака точек 3D.

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

Недавнее исследование arXiv:2410.15027 исследовало использование диффузионных трансформеров (DiTs) для генерации изображений, не зависящей от задачи, путем простого объединения токенов внимания между изображениями. Однако, несмотря на значительные вычислительные ресурсы, качество генерируемых изображений остается неоптимальным. В данном исследовании мы переоцениваем и оптимизируем эту систему, предполагая, что текстово-изображающие DiTs изначально обладают способностями к контекстно-зависимой генерации, требуя лишь минимальной настройки для их активации. Через разнообразные эксперименты с задачами мы качественно демонстрируем, что существующие текстово-изображающие DiTs могут эффективно выполнять контекстно-зависимую генерацию без какой-либо настройки. Основываясь на этом понимании, мы предлагаем удивительно простой конвейер для использования контекстных способностей DiTs: (1) объединять изображения вместо токенов, (2) проводить совместное описание нескольких изображений и (3) применять специфическую для задачи настройку LoRA с использованием небольших наборов данных (например, 20 символов, 100 образцов) вместо полной настройки параметров с большими наборами данных. Мы назвали наши модели In-Context LoRA (IC-LoRA). Этот подход не требует изменений в оригинальных моделях DiT, только изменения в обучающих данных. Удивительно, но наш конвейер генерирует наборы изображений высокого качества, которые лучше соответствуют запросам. Хотя он специфичен для задач в плане настройки данных, наша система остается не зависящей от задач в архитектуре и конвейере, предоставляя мощный инструмент для сообщества и предлагая ценные выводы для дальнейших исследований в области систем генерации, не зависящих от задач на уровне продукта. Мы публикуем наш код, данные и модели по адресу https://github.com/ali-vilab/In-Context-LoRA.

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.

Лицевая Анонимизация Упрощена: Инновационный Подход с Использованием Диффузионных Моделей

Современные методы анонимизации лиц часто зависят от оценки потери идентичности, рассчитываемой моделями распознавания лиц, что может быть неточным и ненадежным. Кроме того, многие методы требуют дополнительных данных, таких как ключевые точки лица и маски, для управления процессом синтеза. В отличие от них, наш подход использует модели диффузии, опираясь только на потерю реконструкции, что устраняет необходимость в использовании ключевых точек лица или масок, при этом все еще производя изображения с детализированными, мелкими деталями. Мы проверили наши результаты на двух общественных бенчмарках с помощью как количественных, так и качественных оценок. Наша модель достигает наилучших результатов в трех ключевых областях: анонимизация личности, сохранение атрибутов лица и качество изображения. Помимо основной функции анонимизации, наша модель также может выполнять задачи замены лица путем включения дополнительного изображения лица в качестве ввода, демонстрируя свою универсальность и потенциал для различных применений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple.

Раскрытие SDXL Turbo: Интерпретация текст-на-изображение моделей с помощью разреженных автокодировщиков

Редкие автоэнкодеры (SAEs) стали ключевым компонентом в обратной инженерии крупных языковых моделей (LLMs). Для LLM было показано, что они разлагают промежуточные представления, которые часто не являются напрямую интерпретируемыми, на разреженные суммы интерпретируемых признаков, что способствует лучшему контролю и последующему анализу. Однако подобные анализы и подходы отсутствовали для моделей преобразования текста в изображение. Мы исследовали возможность использования SAEs для изучения интерпретируемых признаков для моделей диффузии текста в изображение за несколько шагов, таких как SDXL Turbo. С этой целью мы обучили SAEs на обновлениях, выполняемых блоками трансформеров внутри SDXL Turbo's denoising U-net. Мы обнаружили, что их изученные признаки интерпретируемы, оказывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы нашли один блок, который в основном занимается композицией изображения, другой, который в основном отвечает за добавление локальных деталей, и третий - за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом на пути к лучшему пониманию внутренностей генеративных моделей преобразования текста в изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изучаемых SAEs, для визуальной области. Код доступен по адресу https://github.com/surkovv/sdxl-unbox.