Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "generation"

ChatDiT: Новый Подход к Генерации Изображений с Использованием Диффузионных Трансформеров

Недавние исследования arXiv:2410.15027 arXiv:2410.23775 подчеркивают присущие возможности генерации в контексте предобученных диффузионных трансформеров (DiTs), позволяя им бесперебойно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются благодаря конкатенации токенов самовнимания по нескольким входным и целевым изображениям, в сочетании с сгруппированными и замаскированными генерационными конвейерами. Исходя из этой базы, мы представляем ChatDiT - универсальную интерактивную рамку визуального генерации, которая использует предобученные диффузионные трансформеры в их исходной форме, не требуя дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT, чтобы создавать чередующиеся текстово-изображенческие статьи, многослойные книжки с картинками, редактировать изображения, разрабатывать производные объекты ИП или разрабатывать настройки дизайна персонажей, все это с помощью свободной естественной речи в одном или нескольких раундах общения. В своей основе ChatDiT использует систему многопользовательских агентов, состоящую из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одноступенчатые или многоступенчатые генерационные действия, и агента исполнения, который выполняет эти действия с использованием встроенного набора инструментов диффузионных трансформеров. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, состоящем из 100 реальных дизайнерских задач и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и безтренировочный подход, ChatDiT превосходит всех конкурентов, включая тех, кто специально разработан и обучен на обширных многозадачных наборах данных. Мы также выявляем ключевые ограничения предобученных DiT в нулевой адаптации к задачам. Мы публикуем весь код, агентов, результаты и промежуточные выходы, чтобы способствовать дальнейшим исследованиям на https://github.com/ali-vilab/ChatDiT.

FashionComposer: Генерация Композиционных Модных Изображений

Мы представляем FashionComposer для генерации композиционных модных изображений. В отличие от прежних методов, FashionComposer обладает высокой гибкостью. Он принимает многомодульный ввод (т.е. текстовый запрос, параметрическую модель человека, изображение одежды и изображение лица) и поддерживает персонализацию внешнего вида, позы и фигуры человека, а также назначение нескольких предметов одежды за один проход. Для достижения этого мы сначала развиваем универсальную структуру, способную обрабатывать различные входные модули. Мы строим масштабированные учебные данные, чтобы улучшить надежные композиционные способности модели. Чтобы бесшовно интегрировать несколько изображений-ссылок (одежды и лиц), мы организуем эти ссылки в одном изображении как «библиотеку активов» и используем UNet ссылок для извлечения внешних характеристик. Чтобы ввести внешние характеристики в правильные пиксели в сгенерированном результате, мы предлагаем привязку внимания к субъекту. Она связывает внешние характеристики из разных «активов» с соответствующими текстовыми характеристиками. Таким образом, модель может понимать каждый актив в соответствии с их семантикой, поддерживая произвольные числа и типы изображений-ссылок. Как комплексное решение, FashionComposer также поддерживает многие другие приложения, такие как генерация альбома человека, различные виртуальные задания по примерке и т.д.

RetroLLM: Объединение поиска и генерации для больших языковых моделей

Большие языковые модели (LLM) демонстрируют замечательные генеративные способности, но часто страдают от галлюцинаций. Генерация с поддержкой поиска (RAG) предлагает эффективное решение, включая внешний контекст, но существующие методы сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных извлекательных модулей, избыточные токены ввода из извлеченных текстовых фрагментов и отсутствие совместной оптимизации извлечения и генерации. Чтобы решить эти проблемы, мы предлагаем RetroLLM — единые архитектуры, объединяющие извлечение и генерацию в один последовательный процесс, позволяя LLM непосредственно генерировать детализированные доказательства из корпуса с использованием ограниченного декодирования. Более того, чтобы смягчить ложную обрезку в процессе генерации ограниченных доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют подсказки, ограниченные корпусом, чтобы определить подмножество релевантных документов перед генерацией доказательств, снижая нерелевантное декодирование; и (2) стратегию ограниченного декодирования, ориентированную на будущее, которая учитывает релевантность будущих последовательностей для повышения точности доказательств. Обширные эксперименты на пяти наборах данных открытых доменов QA демонстрируют превосходные результаты RetroLLM как в задачах в области, так и за ее пределами. Код доступен по адресу https://github.com/sunnynexus/RetroLLM.

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

InstanceCap: Улучшение генерации видео по тексту с помощью структурированных аннотаций с учётом экземпляров

Генерация текста в видео быстро развивалась в последние годы, демонстрируя замечательные результаты. Обучение обычно основывается на парных данных видео и субтитров, которые играют решающую роль в повышении производительности генерации. Однако текущие субтитры видео часто страдают от недостатка деталей, галлюцинаций и неточного отображения движений, что влияет на точность и согласованность сгенерированных видео. В этой работе мы предлагаем новую структуру субтитров, учитывающую экземпляры, названную InstanceCap, чтобы достичь уровня экземпляров и тонких деталей в субтитрах видео впервые. На основе этой схемы мы разрабатываем кластер вспомогательных моделей для преобразования оригинального видео в экземпляры для повышения точности экземпляров. Видеои экземпляры дополнительно используются для уточнения плотных подсказок в структурированные фразы, достигая лаконичных, но точных описаний. Более того, был собран набор данных 22K InstanceVid для обучения, а также предложен улучшенный конвейер, специально разработанный для структуры InstanceCap, для вывода. Экспериментальные результаты демонстрируют, что наша предложенная InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую точность между субтитрами и видео, одновременно сокращая число галлюцинаций.

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

ObjectMate: Новый подход к вставке объектов и генерации изображений

В этой статье представлен метод без настройки для вставки объектов и генерации на основе предмета. Задача заключается в том, чтобы создать объект, имея несколько ракурсов, в сцене, заданной либо изображением, либо текстом. Существующие методы испытывают трудности с полным выполнением сложных целей задачи: (i) бесшовное внедрение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что для достижения этих целей требуется крупномасштабное обучение, но сбор достаточных данных вручную просто слишком дорог. Ключевое наблюдение в этой статье заключается в том, что многие массово производимые объекты повторяются на нескольких изображениях больших разметок данных, в разных сценах, позах и условиях освещения. Мы используем это наблюдение для создания массового обучения, извлекая наборы разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение, чтобы сопоставить описания объекта и сцены с составным изображением. Мы сравниваем наш метод, ObjectMate, с современными методами вставки объектов и генерации на основе предмета, используя одну или несколько ссылок. Эмпирически, ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с несколькими ссылками, ObjectMate не требует медленной настройки во время тестирования.

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

SnapGen: Эффективные архитектуры и обучение высококачественных моделей текст-в-изображение для мобильных устройств

Существующие модели диффузии текст-в-изображение (T2I) сталкиваются с несколькими ограничениями, включая большие размеры моделей, медленное время выполнения и низкое качество генерации на мобильных устройствах. Цель этой статьи — решить все эти задачи, разработав исключительно маленькую и быструю модель T2I, которая генерирует изображения высокого разрешения и высокого качества на мобильных платформах. Мы предлагаем несколько методов для достижения этой цели. Во-первых, мы систематически рассматриваем выборы дизайна архитектуры сети, чтобы уменьшить параметры модели и задержку, при этом обеспечивая высокое качество генерации. Во-вторых, для дальнейшего улучшения качества генерации мы используем кросс-архитектурную дистилляцию знаний от гораздо большей модели, применяя многоуровневый подход для направления обучения нашей модели с нуля. В-третьих, мы обеспечиваем генерацию за несколько шагов, интегрируя противоречивую поддержку с дистилляцией знаний. Впервые наша модель SnapGen демонстрирует генерацию изображений размером 1024x1024 пикселя на мобильном устройстве за примерно 1.4 секунды. На ImageNet-1K наша модель с всего 372M параметрами достигает FID 2.06 для генерации 256x256 пикселей. На бенчмарках T2I (т.е. GenEval и DPG-Bench) наша модель с всего 379M параметрами превосходит крупномасштабные модели с миллиардами параметров при значительно более мелком размере (например, в 7 раз меньше, чем SDXL, в 14 раз меньше, чем IF-XL).

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

Mogo: Иерархический Каскадный Трансформер для Генерации 3D Движений Человека

В области генерации текста в движение модели маскированного типа Bert (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с автогенеративными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто не обладают возможностью потокового вывода, необходимой для применения в видеоиграх и мультимедийных средах, что является внутренней особенностью моделей типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Чтобы превзойти качество моделей типа BERT, используя структуру типа GPT, не добавляя дополнительных моделей уточнения, которые усложняют масштабирование данных, мы предлагаем новую архитектуру Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные 3D движения человека, обучая единственную модель трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический резидульный векторный квантизационный вариационный автокодировщик, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический каузальный трансформер, отвечающий за генерирование базовых последовательностей движения авторегрессивным способом, одновременно выводя остатки через разные слои. Экспериментальные результаты демонстрируют, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превышая ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе HumanML3D Mogo достигает FID-оценки 0.079, превышая как модель типа GPT T2M-GPT (FID = 0.116), так и AttT2M (FID = 0.112), а также модель типа BERT MMM (FID = 0.080). Более того, наша модель демонстрирует лучшее количественное выполнение в генерации вне распределения.

LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

Недавние достижения в генерации изображений из текста (T2I) продемонстрировали выдающиеся результаты в создании высококачественных изображений на основе текста. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации составных изображений с участием нескольких объектов и сложными взаимосвязями. Мы связываем эту проблему с ограничениями существующих наборов данных пар изображений и текста, которые не содержат точных аннотаций взаимосвязей между объектами и имеют только подсказки. Чтобы решить эту проблему, мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями графов сцен (SG), которые точно описывают атрибуты и взаимосвязи нескольких объектов, эффективно представляя семантическую структуру в сложных сценах. На основе LAION-SG мы обучаем новую базовую модель SDXL-SG, чтобы интегрировать информацию о структурных аннотациях в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительные улучшения производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели по генерации составных изображений, устанавливая новый стандарт в этой области.

Track4Gen: Улучшение генерации видео с помощью отслеживания точек

Хотя современные генераторы видео создают визуально насыщенный контент, они все еще сталкиваются с проблемой дрейфа внешнего вида, когда объекты постепенно теряют четкость или меняются непоследовательно в разных кадрах, нарушая визуальную согласованность. Мы предполагаем, что это происходит из-за отсутствия явного контроля в терминах пространственного слежения на уровне признаков. Мы предлагаем Track4Gen, генератор видео, обладающий пространственной осведомленностью, который сочетает в себе затраты на диффузию видео с отслеживанием точек в разных кадрах, обеспечивая улучшенное пространственное управление признаками диффузии. Track4Gen объединяет задачи генерации видео и отслеживания точек в одну сеть, внося минимальные изменения в существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединить генерацию видео и отслеживание точек, которые обычно рассматриваются как отдельные задачи. Наши обширные оценки показывают, что Track4Gen эффективно снижает дрейф внешнего вида, что приводит к временно стабильной и визуально согласованной генерации видео. Страница проекта: hyeonho99.github.io/track4gen

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.

StyleMaster: Устранение проблем стилизации видео с помощью нового подхода

Контроль стиля был популярным в моделях генерации видео. Существующие методы часто генерируют видео, сильно отличающиеся от заданного стиля, вызывают утечку контента и имеют трудности с переводом одного видео в желаемый стиль. Наша первая наблюдение заключается в том, что стадия извлечения стиля имеет значение, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Чтобы добавить текстурные особенности и предотвратить утечку контента, мы фильтруем связанные с контентом патчи, сохраняя стильовые на основе схожести между патчами; для извлечения глобального стиля мы создаем парный стильовый датасет через модельную иллюзию для облегчения контрастивного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на статичных видео, что неявно увеличивает степень стилизации и позволяет нашей модели, обученной на изображениях, бесшовно применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только значительно улучшает как сходство стиля, так и временную согласованность, но и легко обобщается для передачи стиля видео с помощью ControlNet с серой плиткой. Обширные эксперименты и визуализации показывают, что StyleMaster значительно превосходит конкурентов, эффективно генерируя высококачественные стилизованные видео, которые соответствуют текстовому содержанию и близки к стилю эталонных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster.

LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

STIV: Масштабируемая генерация видео с учетом текста и изображений

Сфера генерации видео сделала замечательные успехи, однако существует настоятельная необходимость в четком, систематическом рецепте, который может направлять разработку надежных и масштабируемых моделей. В этой работе мы представляем всестороннее исследование, которое систематически изучает взаимосвязь архитектур моделей, рецептов обучения и стратегий кураторства данных, завершаясь простым и масштабируемым методом генерации видео, основанным на текстовых изображениях, названным STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадров, одновременно включая текстовое условие с помощью совместного классификатора на основе изображения и текста без управления. Этот дизайн позволяет STIV одновременно выполнять задачи генерации видео из текста (T2V) и генерации видео из текста и изображений (TI2V). Кроме того, STIV легко расширяется для различных приложений, таких как предсказание видео, интерполяция кадров, многослойная генерация и генерация длинных видео и т.д. Благодаря комплексным абляционным исследованиям T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на его простую структуру. Модель с 8.7B параметрами с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Модель такого же размера также достигает рекордного результата 90.1 на задаче VBench I2V с разрешением 512. Предлагая прозрачный и расширяемый рецепт для создания современных моделей генерации видео, мы стремимся поддержать будущие исследования и ускорить прогресс к более универсальным и надежным решениям в области генерации видео.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

GenMAC: Композиционная генерация видео на основе текста с помощью многоагентного сотрудничества

Модели генерации текста в видео продемонстрировали значительный прогресс в последние годы. Однако они все еще испытывают трудности с созданием сложных динамических сцен на основе составных текстовых запросов, таких как связывание атрибутов для нескольких объектов, временная динамика, связанная с разными объектами, и взаимодействие между объектами. Наша основная мотивация заключается в том, что сложные задачи можно разложить на более простые, каждая из которых обрабатывается специализированным агентом MLLM. Несколько агентов могут сотрудничать для достижения коллективного интеллекта в сложных целях. Мы предлагаем GenMAC, итеративную многоагентную структуру, которая позволяет составлять текстовую генерацию видео. Совместный рабочий процесс включает три этапа: Дизайн, Генерация и Повторный дизайн, с итеративным циклом между этапами Генерации и Повторного дизайна для постепенной проверки и уточнения созданных видео. Этап Повторного дизайна является самым сложным, его цель - проверить созданные видео, предложить исправления и переработать текстовые запросы, макеты кадра и масштабы руководства для следующей итерации генерации. Чтобы избежать галлюцинации одного агента MLLM, мы разбиваем этот этап на четыре последовательно выполняемых агента на основе MLLM: агент проверки, агент предложений, агент исправлений и агент структурирования выходных данных. Более того, для решения разнообразных сценариев составной текстовой генерации видео мы разрабатываем механизм самостоятельного маршрутизации для адаптивного выбора подходящего агента исправлений из набора агентов исправлений, каждый из которых специализирован для одного сценария. Обширные эксперименты демонстрируют эффективность GenMAC, достигая лучших результатов в области составной текстовой генерации видео.

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

AnyDressing: Настраиваемая виртуальная примерка одежды с помощью латентных диффузионных моделей

Недавние достижения в генерации изображений, ориентированных на одежду, из текстовых и графических подсказок на основе диффузионных моделей, впечатляют. Однако существующие методы не поддерживают различные комбинации нарядов и испытывают трудности с сохранением деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их эффективность в различных сценариях. В данной статье мы сосредоточены на новой задаче, а именно на виртуальной одежде с множеством нарядов, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации нарядов и любых персонализированных текстовых подсказок. AnyDressing состоит из двух основных сетей, названных GarmentsNet и DressingNet, которые соответственно предназначены для извлечения детализированных характеристик одежды и генерации индивидуализированных изображений. В частности, мы предлагаем эффективный и масштабируемый модуль с названием Garment-Specific Feature Extractor в GarmentsNet, чтобы индивидуально кодировать текстуры одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем мы разрабатываем механизм адаптивного Dressing-Attention и новую стратегию обучения локализации одежды на уровне экземпляра в DressingNet, чтобы точно внедрять многократные характеристики одежды в соответствующие регионы. Этот подход эффективно интегрирует текстурные подсказки многослойной одежды в сгенерированные изображения и далее улучшает согласованность текстов и изображений. Кроме того, мы представляем стратегию обучения текстур, улучшенную за счет одежды, для повышения детализации отточенных текстур одежды. Благодаря нашему хорошо продуманному дизайну AnyDressing может служить модулем плагина для легкой интеграции с любыми расширениями управления сообществом для диффузионных моделей, улучшая разнообразие и контролируемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает самых современных результатов.

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей

Недавние подходы дали обнадеживающие результаты в дистилляции многоступенчатых моделей диффузии текста в изображение в одноступенчатые. Современная эффективная техника дистилляции, а именно SwiftBrushv2 (SBv2), даже превосходит производительность модель-учителя при ограниченных ресурсах. Однако наше исследование показывает ее нестабильность при работе с разными основами моделей диффузии из-за использования фиксированной шкалы управления внутри потерь Вариационной Дистилляции Оценки (VSD). Еще одной слабостью существующих одноступенчатых моделей диффузии является отсутствие поддержки отрицательной подсказки, что критически важно в практической генерации изображений. Эта статья представляет SNOOPI, новую структуру, разработанную для решения этих ограничений путем улучшения управления в одноступенчатых моделях диффузии как в процессе обучения, так и в процессе вывода. Во-первых, мы эффективно увеличиваем стабильность обучения через Правильное Управление-SwiftBrush (PG-SB), которое использует подход классификации без-guidance с произвольной шкалой. Путем изменения шкалы управления у обеих модель-учителей мы расширяем их распределения выходных данных, что приводит к более надежным потерям VSD, которые позволяют SB эффективно работать с разнообразными основами, сохраняя при этом конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Вниманием Направленным Вперёд Отрицательно (NASA), который интегрирует отрицательные подсказки в одноступенчатые модели диффузии через перекрестное внимание, чтобы подавить нежелательные элементы в генерируемых изображениях. Наши экспериментальные результаты показывают, что предлагаемые нами методы значительно улучшают базовые модели по различным метрикам. Удивительно, но мы достигаем балла HPSv2 31.08, устанавливая новую современную эталонную оценку для одноступенчатых моделей диффузии.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

Imagine360: Генерация Иммерсивного 360° Видео из Перспективных Анкеров

360^circ Видеоролики предлагают гипериммерсивный опыт, который позволяет зрителям исследовать динамическую сцену в полном объеме 360 градусов. Для достижения более удобного для пользователя и персонализированного создания контента в формате 360^circ видео мы стремимся преобразовать стандартные перспективные видео в 360^circ экваториальные видео. С этой целью мы представляем Imagine360, первую платформу для генерации видео, которая преобразует перспективные видео в 360^circ, создавая высококачественные 360^circ видео с богатыми и разнообразными движущимися паттернами из видео- якорей. Imagine360 изучает тонко детализированные сферические визуальные и движущиеся паттерны из ограниченных данных 360^circ видео с несколькими ключевыми разработками. 1) Во-первых, мы принимаем двуветвевый дизайн, который включает в себя ветвь денойзинга перспективного видео и панорамы, чтобы обеспечить локальные и глобальные ограничения для генерации 360^circ видео, с модулем движения и пространственными слоями LoRA, тонко настроенными на расширенных веб-360^circ видео. 2) Кроме того, devised an antipodal mask, чтобы захватить длинные зависимости движения, улучшая превращение камеры между противоположными пикселями на разных полушариях. 3) Чтобы обрабатывать различные входные перспективные видео, мы предлагаем дизайны, учитывающие высоту, которые адаптируются к изменяющимся маскам видео из-за изменения высоты между кадрами. Обширные эксперименты показывают, что Imagine360 достигает превосходного качества графики и согласованности движения среди современных методов генерации 360^circ видео. Мы считаем, что Imagine360 имеет потенциал для продвижения персонализированного, иммерсивного создания 360^circ видео.

MIDI: Многоэкземплярное диффузионное моделирование для генерации 3D-сцен из одного изображения

Данная работа представляет MIDI, новую парадигму для композиционной генерации 3D-сцен из одного изображения. В отличие от существующих методов, основанных на техниках реконструкции или поиска, или недавних подходов, использующих многоступенчатую генерацию объектов по отдельности, MIDI расширяет предварительно обученные модели генерации изображений в 3D-объекты до моделей диффузии с несколькими экземплярами, позволяя одновременно генерировать несколько 3D-экземпляров с точными пространственными отношениями и высокой обобщаемостью. В своей основе MIDI включает новую механизм многоэкземплярного внимания, который эффективно улавливает взаимодействия между объектами и пространственную когерентность прямо в процессе генерации, без необходимости в сложных многоступенчатых процессах. Метод использует частичные изображения объектов и глобальный контекст сцены в качестве входных данных, непосредственно моделируя завершение объектов во время генерации 3D. Во время обучения мы эффективно контролируем взаимодействия между 3D-экземплярами, используя ограниченное количество данных на уровне сцены, при этом включая данные по одиночным объектам для регуляризации, сохраняя тем самым способность к обобщению, присущую предварительно обученным моделям. MIDI демонстрирует достижения на уровне современного искусства в генерации изображений в сцены, что подтверждается оценками на синтетических данных, реальных сценах и стилизованных изображениях сцен, созданных моделями диффузии текстов в изображения.

NitroFusion: Высококачественная одноступенчатая диффузия через динамическое противостоящее обучение

Мы представляем NitroFusion, принципиально новый подход к одномоментной диффузии, который достигает высокого качества генерации с помощью динамической антагонистической структуры. Хотя одномоментные методы предлагают значительные преимущества в скорости, они, как правило, страдают от ухудшения качества по сравнению с многомоментными аналогами. Точно так же, как панель критиков искусства предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход сохраняет большой пул специализированных дискриминаторов, которые вместе направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в определенных аспектах качества на разных уровнях шума, предоставляя разнообразную обратную связь, которая позволяет добиться высококачественной одномоментной генерации. Наша структура сочетает: (i) динамический пул дискриминаторов со специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов, и (iii) глобально-локальные дискриминаторы для оценки качества на различных масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникально поддерживает гибкое развертывание через усовершенствование снизу-вверх, позволяя пользователям динамически выбирать между 1-4 шагами денойзинга с использованием одной и той же модели для прямого компромисса между качеством и скоростью. Через комплексные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одномоментные методы по множеству оценочных метрик, особенно выделяясь в сохранении тонких деталей и глобальной согласованности.

VideoGen-of-Thought: Коллаборативная структура для многослойной генерации видео

Текущие модели генерации видео отлично справляются с созданием коротких клипов, но все еще испытывают трудности с созданием многосъемочных, аналогичных фильмам видео. Существующие модели, обученные на данных большого масштаба с использованием мощных вычислительных ресурсов, неудивительно, что оказываются недостаточными для поддержания логического повествования и визуальной согласованности между несколькими кадрами связного сценария, так как они часто обучаются с целью одного кадра. С этой целью мы предлагаем VideoGen-of-Thought (VGoT), совместную архитектуру без обучения, разработанную специально для многосъемочной генерации видео. VGoT разработан с тремя целями: Генерация многосъемочного видео: мы делим процесс генерации видео на структурированную, модульную последовательность, включающую (1) Генерацию сценария, которая переводит краткую историю в детализированные подсказки для каждого кадра; (2) Генерацию ключевых кадров, ответственную за создание визуально согласованных ключевых кадров, верных изображению персонажей; и (3) Генерацию видео на уровне кадра, которая преобразует информацию из сценариев и ключевых кадров в кадры; (4) Механизм сглаживания, который обеспечивает согласованный многосъемочный результат. Разумный дизайн повествования: вдохновленный сценарным письмом для кино, наш подход к генерации подсказок охватывает пять ключевых областей, обеспечивая логическую согласованность, развитие персонажей и поток повествования на протяжении всего видео. Согласованность между кадрами: мы обеспечиваем временную и идентичностную согласованность, используя эмбеддинги, сохраняющие идентичность (IP), между кадрами, которые автоматически создаются из повествования. Кроме того, мы интегрируем механизм сглаживания между кадрами, который включает границу сброса, эффективно объединяющую латентные признаки соседних кадров, что приводит к плавным переходам и поддержанию визуальной согласованности на протяжении всего видео. Наши эксперименты демонстрируют, что VGoT превосходит существующие методы генерации видео в производстве высококачественных, согласованных многосъемочных видео.

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

X-Prompt: К универсальной генерации изображений в контексте

Генерация в контексте является ключевым компонентом способности больших языковых моделей (LLM) к обобщению в открытых задачах. Используя несколько примеров в качестве контекста, LLM могут выполнять задачи как в своей области, так и за ее пределами. Недавние достижения в области авто-регрессионных моделей, сочетающих язык и визуальные данные (VLM), основанных на LLM, продемонстрировали впечатляющую эффективность в генерации текста в изображения. Однако потенциал обучения в контексте для генерации изображений в целом остается в значительной степени неосвещенным. Чтобы решить эту проблему, мы представляем X-Prompt — чисто авто-регрессионную крупную языковую модель для обработки визуальных данных, разработанную для обеспечения конкурентоспособной производительности в широком диапазоне задач генерации изображений как видимых, так и невидимых, в рамках единой структуры обучения в контексте. X-Prompt включает в себя специализированный дизайн, который эффективно сжимает ценные признаки из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая свою способность обобщать на незнакомые задачи. Единая задача обучения как для текстового, так и для визуального предсказания позволяет X-Prompt справляться с генерацией изображений в общем с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты проверяют производительность модели по разнообразным задачам генерации видимых изображений и ее способность обобщать на ранее невидимые задачи.

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

Open-Sora Plan: Новый Подход к Генерации Видео

Мы представляем проект Open-Sora Plan, проект с открытым исходным кодом, который стремится внести большую модель генерации для создания желаемых видео в высоком разрешении длительностью основываясь на различных входных данных пользователя. Наш проект состоит из нескольких компонентов для всего процесса генерации видео, включая вариационный автокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse, а также различные контроллеры условий. Более того, разработаны множество вспомогательных стратегий для эффективного обучения и вывода, и предложен многоуровневый конвейер обработки данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш проект Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт смогут вдохновить сообщество исследователей генерации видео. Все наши коды и веса модели доступны для публики по адресу https://github.com/PKU-YuanGroup/Open-Sora-Plan.

Искусство без искусства: Генерация художественных изображений без предварительных знаний о графическом искусстве

Мы изучаем вопрос: «Сколько знаний о предшествующем искусстве необходимо для создания искусства?» Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы вводим простой, но эффективный метод обучения адаптера искусства, используя только несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с помощью нашего метода, воспринимается пользователями как сопоставимое с искусством,produced models trained on large, art-rich datasets. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры как художественных, так и не художественных наборов данных способствовали созданию новых художественных стилей.

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

Morph: Бездвижный Фреймворк Оптимизации Физики для Генерации Человеческого Движения

Генерация человеческого движения играет жизненно важную роль в таких приложениях, как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к частому производству физически неправдоподобных движений с выраженными артефактами, такими как зависание и скольжение ног. В этой работе мы предлагаем Morph, систему оптимизации физики без движения, состоящую из генератора движений и модуля уточнения физики движений, для повышения физической правдоподобности без необходимости полагаться на дорогие данные реального мира. В частности, генератор движений отвечает за предоставление синтетических данных о движениях в большом масштабе, в то время как модуль уточнения физики движений использует эти синтетические данные для обучения имитатора движений в физическом симуляторе, обеспечивая физические ограничения для проекции шумных движений в физически правдоподобное пространство. Эти физически уточненные движения, в свою очередь, используются для дальнейшей тонкой настройки генератора движений, что дополнительно повышает его возможности. Эксперименты по задачам генерации текста в движение и музыки в танец показывают, что наша система достигает качественного уровня генерации движений, сохраняя при этом значительное улучшение физической правдоподобности.

Автоматическая генерация изображений из текста: ChatGen

Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.

Интерливинг текстов и изображений: Новая эра генеративного ИИ

Многие реальные запросы пользователей (например, «Как сделать жареный рис с яйцом?») могут извлечь выгоду от систем, способных генерировать ответы с текстовыми шагами и сопутствующими изображениями, подобно кулинарным книгам. Модели, предназначенные для генерации чередующегося текста и изображений, сталкиваются с проблемами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную оценочную структуру для чередующейся генерации текста и изображений. ISG использует структуру графа сцены для захвата взаимосвязей между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях гранулярности: целостный, структурный, блочный и специфичный для изображения. Эта многоуровневая оценка позволяет провести тонкую оценку согласованности, последовательности и точности, а также предоставляет интерпретируемую обратную связь по вопросам и ответам. В дополнение к ISG мы представляем контрольный набор, ISG-Bench, охватывающий 1150 образцов в 8 категориях и 21 подкатегории. Этот контрольный набор данных включает сложные зависимости языка и зрения и золотые ответы для эффективной оценки моделей на задачах, ориентированных на зрительное восприятие, таких как перенос стиля, что является сложной областью для современных моделей. Используя ISG-Bench, мы демонстрируем, что недавние унифицированные модели языка и зрения показывают плохие результаты в генерации чередующегося контента. Хотя композиционные подходы, объединяющие отдельные языковые и изображенческие модели, демонстрируют улучшение на 111% по сравнению с унифицированными моделями на целостном уровне, их производительность остается субоптимальной как на блочном, так и на уровне изображений. Чтобы облегчить будущую работу, мы разработали ISG-Agent, базового агента, использующего конвейер "планировать-выполнить-совершенствовать" для вызова инструментов, достигая улучшения производительности на 122%.

Обучение и оценка языковых моделей с использованием шаблонной генерации данных

Быстрое развитие больших языковых моделей (LLM), таких как GPT-3, PaLM и Llama, значительно преобразовало обработку естественного языка, продемонстрировав замечательные способности в понимании и генерации языка. Однако эти модели часто испытывают трудности с задачами, требующими сложного рассуждения, особенно в области математического решения задач, отчасти из-за нехватки крупных высококачественных наборов данных, специфичных для области, необходимых для обучения сложным способностям рассуждения. Чтобы решить эту проблему, мы представляем создание данных на основе шаблонов (TDG) - новый подход, который использует LLM (GPT-4) для автоматической генерации параметризованных мета-шаблонов, которые затем используются для синтеза огромного разнообразия качественных задач и решений. Используя TDG, мы создаем TemplateMath Часть I: TemplateGSM, набор данных, состоящий более чем из 7 миллионов синтетически сгенерированных задач по математике для начальной школы, каждая из которых сопровождается кодовыми и естественноязычными решениями, с возможностью генерировать эффективно неограниченное количество дополнительных задач. Этот набор данных устраняет нехватку крупных математических наборов данных и служит ценным ресурсом для предварительного обучения, тонкой настройки и оценки LLM в математическом рассуждении. Наш метод не только позволяет генерировать практически бесконечные данные, но и поднимает увеличение данных на новый уровень, используя GPT-4 для генерации мета-шаблонов, что обеспечивает разнообразные и качественные структуры задач. Набор данных TemplateMath Часть I: TemplateGSM доступен для публичного доступа по адресу https://huggingface.co/datasets/math-ai/TemplateGSM. Код доступен по адресу https://github.com/iiis-ai/TemplateMath.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.

SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от крупных языковых моделей (LLMs) до крупных мультимодальных моделей (LMMs) и генерации двумерного контента, приближаясь к достижению искусственного общего интеллекта (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию трехмерных объектов остается в значительной степени неизведанным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный трехмерный векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов с целью эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего одиночного токена, SAR3D значительно сокращает время генерации, позволяя создавать трехмерные объекты всего за 0.82 секунды на GPU A6000. Кроме того, учитывая, что токены обогащены иерархической информацией, учитывающей трехмерность, мы дообучаем предобученную LLM на этих токенах, что позволяет многомодальному пониманию трехмерного контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D объектов как по скорости, так и по качеству, а также позволяет LLM интерпретировать и описывать трехмерные модели комплексно.

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Генерация видео с сохранением идентичности на основе текста: концепция ConsisID

Генерация текстов в видео с сохранением идентичности (IPT2V) нацелена на создание видеороликов высокой четкости с последовательной человеческой идентичностью. Это важная задача в генерации видео, но остается нерешенной проблемой для генеративных моделей. Эта статья продвигает технические границы IPT2V в двух направлениях, которые не были рассмотрены в литературе: (1) Пайплайн без необходимости настройки без утомительной подгонки, и (2) Частотно-осознанная эвристическая схема управления, сохраняющая идентичность, основанная на DiT. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность в сгенерированном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где характеристики лица могут быть разложены на низкочастотные глобальные особенности и высокочастотные внутренние особенности. Во-первых, с точки зрения низкой частоты мы представляем глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентное пространство, генерируя особенности, обогащенные информацией низкой частоты. Эти характеристики затем интегрируются в поверхностные слои сети, чтобы облегчить проблемы обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты мы разрабатываем локальный экстрактор лица, чтобы захватить детали высокой частоты и внедрить их в блоки трансформера, улучшая способность модели сохранять детализированные особенности. Мы предлагаем иерархическую стратегию обучения для использования частотной информации для сохранения идентичности, преобразовывая обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты демонстрируют, что наша частотно-осознанная эвристическая схема обеспечивает оптимальное решение для моделей на основе DiT. Благодаря этой схеме, наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

MagicDriveDiT: Высококачественная генерация длинных видео для автономного вождения с адаптивным управлением

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в области управляемой генерации видео, что жизненно важно для таких приложений, как автономное вождение. Однако существующие методы ограничены масштабируемостью и тем, как интегрируются условия управления, что не позволяет удовлетворить потребности в высококачественных видео высокого разрешения и большой продолжительности для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход, основанный на архитектуре DiT, который решает эти проблемы. Наш метод улучшает масштабируемость за счет соответствия потоков и использует стратегию прогрессивного обучения для управления сложными сценариями. Включая пространственно-временное условное кодирование, MagicDriveDiT обеспечивает точный контроль над пространственно-временными латентами. Всеобъемлющие эксперименты демонстрируют его превосходную производительность в создании реалистичных уличных сцен с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и контроль пространственно-временных параметров, расширяя его потенциальные применения в различных задачах автономного вождения.

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

Стильные коды: Создание стилизованных изображений с помощью диффузионных моделей

Модели диффузии превосходно справляются с генерацией изображений, но управление ими остается сложной задачей. Мы сосредоточиваемся на проблеме генерации изображений с условием стиля. Хотя примеры изображений работают, они громоздки: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в виде короткого числового кода. Эти коды получили широкое распространение в социальных сетях благодаря своей простоте в обмене и возможности использовать изображение для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут генерировать srefs из своих собственных изображений, и процедура обучения не является публичной. Мы предлагаем StyleCodes: архитектуру и процедуру обучения открытого кода и открытых исследований для кодирования стиля изображения в виде 20-символьного кода base64. Наши эксперименты показывают, что наше кодирование приводит к минимальной потере качества по сравнению с традиционными методами преобразования изображения в стиль.

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

AnimateAnything: Создание Консистентных и Контролируемых Анимаций для Генерации Видео

Мы представляем унифицированный подход к управляемой генерации видео под названием **AnimateAnything**, который облегчает точное и последовательное манипулирование видео в различных условиях, включая траектории камеры, текстовые запросы и аннотации движений пользователя. В частности, мы тщательно разрабатываем сеть слияния многомасштабных контрольных характеристик для построения общего представления движения для различных условий. Она явно преобразует всю контрольную информацию в кадр за кадром оптические потоки. Затем мы включаем оптические потоки как априорные знания о движении для руководства финальной генерацией видео. Кроме того, чтобы уменьшить мерцание, вызванное крупномасштабными движениями, мы предлагаем модуль стабилизации на основе частот. Он может улучшить временную когерентность, обеспечивая согласованность частотной области видео. Эксперименты показывают, что наш метод превосходит современные подходы. Для получения дополнительной информации и видео, пожалуйста, обратитесь к веб-странице: https://yu-shaonian.github.io/Animate_Anything/.

Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В данной статье мы представляем RAG, метод генерации изображений по тексту с учетом региональных описаний для точного компоновки макета. Региональное подсказывание или композитная генерация, позволяющая точный пространственный контроль, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако, предыдущие методы либо вводят дополнительные обучаемые модули, что ограничивает их применение только к определенным моделям, либо манипулируют картами оценок внутри слоев перекрестного внимания с помощью масок внимания, что приводит к ограниченной силе контроля при увеличении числа регионов. Чтобы справиться с этими ограничениями, мы разделяем процесс многорегиональной генерации на две подзадачи: создание отдельных регионов (Региональная Жесткая Привязка), что гарантирует правильное выполнение регионального запроса, и общую детальную доработку (Региональная Мягкая Доработка) регионов, которая игнорирует визуальные границы и усиливает взаимодействие между соседними регионами. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные неудовлетворительные регионы предыдущей генерации, оставляя все остальные регионы неизменными, без необходимости использовать дополнительные модели для дорисовки. Наш подход не требует настройки и может быть применен к другим системам как улучшение следования запросу. Количественные и качественные эксперименты показывают, что RAG превосходит предыдущие методы без настройки по привязке атрибутов и отношениям объектов.

LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей

Эта работа исследует расширение возможностей крупных языковых моделей (LLMs), предварительно обученных на текстах, для генерации 3D сеток в рамках единой модели. Это предлагает ключевые преимущества: (1) использование пространственных знаний, уже заложенных в LLM, полученных из текстовых источников, таких как 3D руководства, и (2) возможность диалоговой генерации 3D и понимания сеток. Основной вызов заключается в эффективной токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем LLaMA-Mesh, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса. Мы создаем набор данных для настроенного обучения с учителем (SFT), который позволяет предварительно обученным LLM (1) генерировать 3D сетки из текстовых запросов, (2) производить смешанные текстовые и 3D сеточные выходные данные по требованию и (3) понимать и интерпретировать 3D сетки. Наша работа впервые демонстрирует, что LLM могут быть настроены для приобретения сложных пространственных знаний для генерации 3D сеток в текстовом формате, эффективно объединяя 3D и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток, сравнимого с моделями, обученными с нуля, при этом сохраняя высокую производительность генерации текста.

Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

Авторегрессивные модели в компьютерном зрении: обзор

Авторегрессионное моделирование стало огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значимой областью внимания в компьютерном зрении, где они превосходно справляются с созданием высококачественного визуального контента. В NLP авторегрессионные модели обычно работают с субсловными токенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, например, уровень пикселей, уровень токенов или уровень масштаба, что отражает разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В этом обзоре мы всесторонне рассматриваем литературу по авторегрессионным моделям, применяемым в области зрения. Для улучшения читаемости для исследователей с разным научным багажом, мы начинаем с предварительного представления и моделирования последовательностей в зрении. Далее мы делим основные фреймворки визуальных авторегрессионных моделей на три общие подкатегории: модели на основе пикселей, токенов и масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, видео, 3D-объектов и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и 3D медицинский ИИ, с примерно 250 связанными ссылками. В заключение, мы подчеркиваем текущие вызовы для авторегрессионных моделей в зрении и предлагаем потенциальные направления для исследований. Мы также создали репозиторий на Github для организации бумаг, включенных в этот обзор, по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Энергоэффективные модели языка белков: Использование малых языковых моделей с LoRA для контролируемой генерации белков

Крупные языковые модели (LLM) показали значительный успех в задачах обработки естественного языка (NLP) и продемонстрировали многообещающие результаты в других областях, таких как генерация последовательностей белков. Однако существуют существенные различия между LLM, используемыми для NLP, которые эффективно справляются с множеством задач и доступны в небольших размерах, и языковыми моделями белков, которые часто специализированы для конкретных задач и существуют только в более крупных размерах. В этой работе мы представляем две небольшие языковые модели белков, основанные на Llama-3-8B и Phi-3-mini, которые способны генерировать белки как неконтролируемым, так и контролируемым способом. Для задачи неконтролируемой генерации наша лучшая модель достигает среднего pLDDT-оценки 69.75, что свидетельствует о надежной работоспособности при создании жизнеспособных структур белков. Для задачи контролируемой генерации, где модель генерирует белки в соответствии с заданными в запросе свойствами, мы достигли выдающегося среднего TM-Score в 0.84, что указывает на высокую структурную схожесть с целевыми белками. Мы выбрали 10 свойств, включая шесть классов ферментов, чтобы расширить возможности предыдущих языковых моделей белков. Наш подход использует технику Low-Rank Adaptor (LoRA), сокращая количество обучаемых параметров до всего 4% от исходного размера модели, что снижает вычислительные требования. Используя подмножество набора данных UniRef50 и небольшие модели, мы сократили общее время обучения на 70% без ущерба для производительности. Стоит отметить, что Phi-3-mini сократил количество обучаемых параметров на 60%, уменьшив затраты на обучение на 30% по сравнению с Llama 3. В результате, Phi-3 достигла сопоставимого TM-Score в 0.81, демонстрируя, что меньшие модели могут соответствовать производительности более крупных, таких как Llama 3. Мы также продемонстрировали развертывание наших моделей на энергосберегающем чипе ET-SoC-1, значительно улучшив TPS/W в три раза.

GazeGen: Революция в Визуальном Контенте с Помощью Взгляда

Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.

DimensionX: Создание 3D и 4D сцен из одного изображения с помощью контролируемой видео диффузии

В данной статье мы представляем DimensionX, фреймворк, разработанный для создания фотореалистичных 3D и 4D сцен из одного изображения с использованием видео диффузии. Наш подход начинается с осознания того, что как пространственная структура 3D сцены, так и временная эволюция 4D сцены могут быть эффективно представлены через последовательности кадров видео. Хотя современные модели видео диффузии показали выдающиеся результаты в создании ярких визуалов, они сталкиваются с ограничениями при прямом восстановлении 3D/4D сцен из-за ограниченной пространственной и временной управляемости во время генерации. Чтобы преодолеть это, мы предлагаем ST-Director, который разделяет пространственные и временные факторы в видео диффузии, обучая LoRAs, чувствительные к размерности, на данных с вариативной размерностью. Этот подход к управляемой видео диффузии позволяет точно манипулировать пространственной структурой и временной динамикой, что дает нам возможность реконструировать как 3D, так и 4D представления из последовательных кадров с сочетанием пространственных и временных измерений. Кроме того, для сближения между сгенерированными видео и реальными сценами, мы вводим механизм, учитывающий траекторию для 3D генерации, и стратегию деноизинга, сохраняющую идентичность для 4D генерации. Обширные эксперименты на различных реальных и синтетических наборах данных показывают, что DimensionX достигает превосходных результатов в управляемой генерации видео, а также в генерации 3D и 4D сцен по сравнению с предыдущими методами.

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

ReCapture: Генерация Видео с Новыми Траекториями Камеры для Пользовательских Видео

В последнее время прорывы в моделировании видео позволили контролировать траектории камеры в генерируемых видео. Однако эти методы нельзя напрямую применять к видео, предоставленным пользователями, которые не были сгенерированы видеомоделью. В данной статье мы представляем ReCapture, метод для создания новых видео с новыми траекториями камеры из одного видео, предоставленного пользователем. Наш метод позволяет нам перегенерировать эталонное видео, сохраняя все его существующие сценические движения, с совершенно разных углов и с кинематографическими движениями камеры. Примечательно, что с помощью нашего метода мы также можем правдоподобно воспроизвести части сцены, которые не были видны в эталонном видео. Наш метод работает следующим образом: (1) генерируется шумное опорное видео с новой траекторией камеры с использованием моделей многовидовой диффузии или рендеринга на основе глубины облака точек, а затем (2) опорное видео перегенерируется в чистое и временно последовательное видео с измененным углом обзора с помощью нашей предложенной техники тонкой настройки видео с маскированием.

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

MVPaint: Синхронизированная мульти-вью генерация для текстурирования 3D объектов

Текстурирование является ключевым этапом в рабочем процессе создания 3D-активов, который улучшает визуальное восприятие и разнообразие этих активов. Несмотря на последние достижения в области генерации текстур из текста (T2T), существующие методы часто дают неудовлетворительные результаты, в основном из-за локальных несоответствий, несогласованности по нескольким видам и их сильной зависимости от результатов разворачивания UV. Чтобы решить эти проблемы, мы предлагаем новую структуру генерации и доработки 3D текстурирования под названием MVPaint, которая способна создавать высококачественные, бесшовные текстуры, уделяя особое внимание согласованности многовидовой проекции. MVPaint в основном состоит из трех ключевых модулей: 1) **Синхронизированная генерация многовидовых изображений (SMG)**. На основе модели 3D-сетки MVPaint сначала одновременно генерирует изображения с нескольких видов, используя модель SMG, что приводит к грубым результатам текстурирования с непокрашенными частями из-за отсутствующих наблюдений. 2) **Пространственно-ориентированная 3D-ретушь (S3I)**. Для обеспечения полного текстурирования 3D, мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее не наблюдаемых областей. 3) **Уточнение UV (UVR)**. Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в UV-пространстве, который сначала выполняет сверхразрешение в UV-пространстве, за которым следует алгоритм сглаживания швов, ориентированный на пространство, для исправления пространственных несоответствий в текстурировании, вызванных разворачиванием UV. Кроме того, мы создаем две оценочные бенчмарки T2T: бенчмарк Objaverse T2T и бенчмарк GSO T2T, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие методы наилучших практик. В частности, MVPaint может генерировать высококачественные текстуры с минимальными проблемами Janus и значительно улучшенной согласованностью между видами.

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

Генерирование 3D и 4D сцен с Gen-X-D: От теории к практике

Недавние достижения в области генерации двумерных визуальных изображений были весьма успешными. Однако, создание 3D и 4D объектов остается сложной задачей в реальных приложениях из-за отсутствия масштабных 4D данных и эффективного дизайна моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D объектов, используя движения камеры и объектов, которые часто наблюдаются в повседневной жизни. Из-за недостатка реальных 4D данных в сообществе, мы сначала предлагаем пайплайн курирования данных для получения позиций камеры и интенсивности движения объектов из видео. На основе этого пайплайна мы представляем крупномасштабный набор данных реальных 4D сцен: CamVid-30K. Используя все 3D и 4D данные, мы разрабатываем нашу платформу, GenXD, которая позволяет создавать любую 3D или 4D сцену. Мы вводим мультивью-темпоральные модули, которые разделяют движения камеры и объектов, чтобы беспрепятственно учиться на обоих типах данных. Кроме того, GenXD использует маскированные латентные условия для поддержки различных условий визуализации. GenXD способен генерировать видео, которые следуют траектории камеры, а также согласованные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами генерации 3D и 4D объектов.

Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

Недавнее исследование arXiv:2410.15027 исследовало использование диффузионных трансформеров (DiTs) для генерации изображений, не зависящей от задачи, путем простого объединения токенов внимания между изображениями. Однако, несмотря на значительные вычислительные ресурсы, качество генерируемых изображений остается неоптимальным. В данном исследовании мы переоцениваем и оптимизируем эту систему, предполагая, что текстово-изображающие DiTs изначально обладают способностями к контекстно-зависимой генерации, требуя лишь минимальной настройки для их активации. Через разнообразные эксперименты с задачами мы качественно демонстрируем, что существующие текстово-изображающие DiTs могут эффективно выполнять контекстно-зависимую генерацию без какой-либо настройки. Основываясь на этом понимании, мы предлагаем удивительно простой конвейер для использования контекстных способностей DiTs: (1) объединять изображения вместо токенов, (2) проводить совместное описание нескольких изображений и (3) применять специфическую для задачи настройку LoRA с использованием небольших наборов данных (например, 20 символов, 100 образцов) вместо полной настройки параметров с большими наборами данных. Мы назвали наши модели In-Context LoRA (IC-LoRA). Этот подход не требует изменений в оригинальных моделях DiT, только изменения в обучающих данных. Удивительно, но наш конвейер генерирует наборы изображений высокого качества, которые лучше соответствуют запросам. Хотя он специфичен для задач в плане настройки данных, наша система остается не зависящей от задач в архитектуре и конвейере, предоставляя мощный инструмент для сообщества и предлагая ценные выводы для дальнейших исследований в области систем генерации, не зависящих от задач на уровне продукта. Мы публикуем наш код, данные и модели по адресу https://github.com/ali-vilab/In-Context-LoRA.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.

Повышение способности генерации длинных текстов с помощью LLM

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.