Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "generative"

AniDoc: Упрощение создания анимации с помощью ИИ

Производство 2D-анимации следует стандартному рабочему процессу в отрасли, включая четыре основных этапа: разработку персонажей, анимацию основных кадров, промежуточную анимацию и раскраску. Наша работа сосредоточена на снижении трудозатрат в указанном процессе за счет использования потенциала все более мощного генеративного ИИ. Используя модели видеодифузии в качестве основы, AniDoc выступает в качестве инструмента для цветового обозначения видеолинейного искусства, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с заданными характеристиками персонажа. Наша модель использует сопоставление соответствия в качестве явного руководства, что обеспечивает высокую устойчивость к изменениям (например, в позе) между эталонным персонажем и каждым кадром линейного искусства. Кроме того, наша модель может даже автоматизировать процесс промежуточной анимации, что позволяет пользователям легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальные и конечные эскизы. Наш код доступен по адресу: https://yihao-meng.github.io/AniDoc_demo.

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

ColorFlow: Революция в цветизации изображений последовательностей

Автоматическая цветизация черно-белых последовательностей изображений с сохранением идентичности персонажей и объектов (ID) является сложной задачей с значительным спросом на рынке, например, для цветизации мультфильмов или комиксов. Несмотря на достижения в визуальной цветизации с использованием крупных генеративных моделей, таких как диффузионные модели, продолжают существовать проблемы с управляемостью и согласованностью идентичности, что делает существующие решения непригодными для промышленного применения. Чтобы решить эту задачу, мы предлагаем ColorFlow — трехэтапную диффузионную основу, адаптированную для цветизации последовательностей изображений в промышленном применении. В отличие от существующих методов, которые требуют дообучения на уровне ID или явной извлечения встраиваний ID, мы предлагаем новую надежную и обобщаемую цветизационную трубопроводную систему с использованием дополненной выборки для цветизации изображений с соответствующими цветовыми ссылками. Наша трубопроводная система также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности, а другая для цветизации, используя сильные стороны диффузионных моделей. Мы используем механизм самовнимания в диффузионных моделях для мощного обучения в контексте и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, комплексный эталон для цветизации на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательной цветизации изображений и потенциально принося пользу художественной индустрии. Мы публикуем наши коды и модели на нашей странице проекта: https://zhuang2002.github.io/ColorFlow/.

Wonderland: Навигация по 3D-сценам из одного изображения

Эта работа касается сложного вопроса: как мы можем эффективно создавать высококачественные, масштабные 3D-сцены из одного произвольного изображения? Существующие методы сталкиваются с несколькими ограничениями, такими как необходимость в данных с нескольких точек зрения, продолжительная оптимизация для каждой сцены, низкое визуальное качество фонов и искаженные реконструкции в не видимых областях. Мы предлагаем новую схему, чтобы преодолеть эти ограничения. В частности, мы представляем масштабную модель реконструкции, которая использует латенты из модели диффузии видео для предсказания 3D-Гауссовских разбросов для сцен в прямом направлении. Модель диффузии видео разработана для создания видео, точно следуя указанным траекториям камеры, что позволяет ей генерировать сжатые видео-латенты, содержащие информацию с нескольких точек зрения, сохраняя при этом 3D-последовательность. Мы обучаем модель 3D-реконструкции работать в пространстве видео-латентов с помощью прогрессивной стратегии обучения, что позволяет эффективно генерировать высококачественные, масштабные и универсальные 3D-сцены. Обширные оценки на различных наборах данных демонстрируют, что наша модель значительно превосходит существующие методы генерации 3D-сцен с одного вида, особенно с изображениями из другой области. Впервые мы демонстрируем, что модель 3D-реконструкции может быть эффективно построена на основе латентного пространства модели диффузии для реализации эффективной генерации 3D-сцен.

Эффективное генеративное моделирование с использованием токенов на основе остаточной векторной квантизации

Мы исследуем использование остаточной векторной квантизации (RVQ) для генерации высокой точности в векторно-квантизированных генеративных моделях. Эта техника квантизации поддерживает более высокую точность данных, используя более глубокие токены. Однако увеличение числа токенов в генеративных моделях приводит к более медленным скоростям вывода. С этой целью мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокой точности без ущерба для скорости выборки. Наша ключевая идея заключается в прямом прогнозировании векторного представления коллективных токенов, а не отдельных. Более того, мы показываем, что предложенный нами метод маскирования токенов и прогнозирования нескольких токенов можно сформулировать в рамках обоснованной вероятностной модели, используя дискретный процесс диффузии и вариационное вывод. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах в различных модальностях: условная генерация изображений на ImageNet 256x256 и синтез текста в речь без примеров. Экспериментальные результаты демонстрируют, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходную производительность без ущерба для скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют повышенную точность генерации или более быстрые скорости выборки по сравнению с аналогичными базовыми моделями. Страница проекта доступна по адресу https://resgen-genai.github.io

Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, аудио, видео). В этой работе мы предлагаем Моделирование Языка в Скрытом Пространстве (Latent Language Modeling, LatentLM), которое бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. В частности, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде скрытых векторов и вводим диффузию следующего токена для авторегрессионной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE, чтобы решить проблемы коллапса дисперсии, что имеет решающее значение для авторегрессионного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодальные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает положительных результатов по сравнению с Transfusion и векторизованными моделями в контексте увеличения токенов для обучения. В синтезе текста в речь LatentLM превосходит передовую модель VALL-E 2 по сходству с говорящим иrobustness, при этом требуя на 10 раз меньше шагов декодирования. Результаты подтверждают, что LatentLM является высокоэффективным и масштабируемым подходом для продвижения больших мультимодальных моделей.

JuStRank: Оценка LLM-судей для ранжирования систем

Учитывая быстрый прогресс генеративного ИИ, существует настоятельная необходимость систематически сравнивать и выбирать между многочисленными моделями и конфигурациями. Масштаб и универсальность таких оценок делают использование судей на основе больших языковых моделей (LLM) убедительным решением для этой задачи. Ключевым моментом в этом подходе является необходимость сначала проверить качество самого судьи LLM. Предыдущие работы сосредотачивались на оценке судей LLM на основе конкретных примеров, где судья оценивается по набору ответов или парам ответов, оставаясь при этом нейтральным к их исходным системам. Мы утверждаем, что эта обстановка упускает из виду критически важные факторы, влияющие на ранжирование на уровне системы, такие как положительная или отрицательная предвзятость судьи к определённым системам. Чтобы устранить этот пробел, мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Баллы системы генерируются путем агрегирования оценок судей по нескольким выводам системы, а качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием, основанным на мнении человека. Кроме общей оценки судьи, наш анализ предоставляет детализированную характеристику поведения судьи, включая их решительность и предвзятость.

Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (NFs) являются моделями, основанными на вероятности, для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в оценке плотности, так и в задачах генеративного моделирования, но в последние годы получили относительно мало внимания. В этой работе мы демонстрируем, что NFs более мощные, чем считалось ранее. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант автогрессивных потоков с маскированием (MAFs), основанный на Transformer: он состоит из стека автогрессивных трансформерных блоков на изображениях, чередующих направление автогрессии между слоями. TarFlow легко обучать от начала до конца и он способен напрямую моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества образцов: увеличение гауссовского шума во время обучения, посттренировочную процедуру денойзинга и эффективный метод управления как для условий класса, так и для безусловных настроек. Совместив это, TarFlow устанавливает новые современные результаты в оценке вероятности для изображений, опережая предыдущие лучшие методы на значительную величину, и генерирует образцы с качеством и разнообразием, сопоставимыми с диффузионными моделями, впервые с помощью самостоятельной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

Влияние авторских материалов на большие языковые модели: Норвежская перспектива

Использование материалов с авторскими правами в обучении генеративных языковых моделей поднимает критически важные юридические и этические вопросы. В данной статье представлен фреймворк и результаты эмпирической оценки влияния материалов с авторскими правами на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на оценку моделей по разнообразным норвежским эталонам, в то время как художественные произведения, возможно, приводят к снижению производительности. Наши эксперименты могут способствовать созданию схемы компенсации для авторов, чьи работы вносят вклад в развитие ИИ.

Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

Глобальная визуальная геолокация предсказывает, где изображение было сделано на Земле. Поскольку изображения различаются по точности локализации, эта задача изначально связана с значительной степенью неоднозначности. Тем не менее, существующие подходы являются детерминистическими и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации, основанный на диффузии и совпадении Римановых потоков, где процесс денойзинга осуществляется непосредственно на поверхности Земли. Наша модель достигает передовых показателей на трех тестах визуальной геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы вводим задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным локациям, вместо одной точки. Мы представляем новые метрики и базовые показатели для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Код и модели будут доступны.

OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого типа, таких как текст-в-изображение, текст-в-аудио и синтез аудио-в-изображение. OmniFlow продвигает преобразование откорректированного потока (RF), использующееся в моделях текст-в-изображение, для обработки совместного распределения нескольких модальностей. Она превосходит предыдущие модели любого типа по широкому диапазону задач, таких как синтез текст-в-изображение и текст-в-аудио. Наша работа предлагает три ключевых вклада: во-первых, мы расширяем RF до многомодальной настройки и вводим новый механизм управления, позволяющий пользователям гибко контролировать выравнивание между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру MMDiT текста-в-изображение Stable Diffusion 3 и позволяет генерировать аудио и текст. Расширенные модули могут быть эффективно предобучены индивидуально и объединены с обычным текст-в-изображение MMDiT для дообучения. Наконец, мы проводим комплексное исследование по выбору дизайна трансформеров откорректированного потока для генерации аудио и текста в крупном масштабе, предоставляя ценные идеи по оптимизации производительности для различных модальностей. Код будет доступен на https://github.com/jacklishufan/OmniFlows.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

LUMINET: Слияние Латентных Интринсиков и Моделей Диффузии для Переноса Освещения в Внутренних Сценах

Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и латентные внутренние представления для эффективной передачи освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует пересвеченную версию исходной сцены, которая захватывает освещение цели. Наш подход делает два ключевых вклада: стратегию кураторства данных на основе модели повторного освещения StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как латентные внутренние свойства исходного изображения, так и латентные экстраинтерные свойства целевого изображения. Мы дополнительно улучшаем передачу освещения с помощью обученного адаптера (MLP), который вводит латентные экстраинтерные свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает латентные представления из двух разных изображений - сохраняя геометрию и альбедо из источника, в то время как передает характеристики освещения из цели. Эксперименты показывают, что наш метод успешно передает сложные феномены освещения, включая бликовые отражения и непрямое освещение, по сценам с различной пространственной компоновкой и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.

OmniCreator: Унифицированное поколение и редактирование видео с самообучением

Мы представляем OmniCreator, новую Framework, которая может осуществлять генерируемое текстом унифицированное (изображение + видео) создание, а также редактирование всего в одном месте. OmniCreator приобретает генеративные и универсальные редакционные возможности в самонаправленном режиме, принимая оригинальные текстово-видео пары в качестве условий, одновременно используя то же самое видео в качестве цели денойзинга для изучения семантического соответствия между видео и текстом. Во время вывода, когда представляется текстовый запрос и видео, OmniCreator способен генерировать целевой контент, который верен обоим, достигая универсального эффекта редактирования, который не ограничен в отличие от существующих редакционных работ, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролей (например, структурных условий, функций внимания или инверсии DDIM). С другой стороны, когда представлен только текстовый запрос, OmniCreator становится генеративным, создавая высококачественное видео в результате изученного семантического соответствия. Важно отметить, что те же возможности распространяются на изображения как есть, что делает OmniCreator поистине унифицированной Framework. Более того, из-за отсутствия существующих бенчмарков для генеративного редактирования видео, мы представляем набор данных OmniBench-99, предназначенный для комплексной оценки производительности моделей генеративного редактирования видео. Обширные эксперименты демонстрируют, что OmniCreator демонстрирует значительное превосходство над всеми другими моделями.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Движение человека, по своей сути, является непрерывным и динамичным, что представляет собой значительные проблемы для генеративных моделей. Несмотря на их преобладание, дискретные методы квантования, такие как VQ-VAEs, страдают от врожденных ограничений, включая ограниченную выразительность и артефакты шума на уровне кадров. Непрерывные подходы, хотя и создают более плавные и естественные движения, часто терпят неудачи из-за высокой размерности и ограниченных обучающих данных. Чтобы решить этот "несоответствие" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные токены для непрерывного движения через декодирование исправленного потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает тонкие динамики и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основной архитектурой, наш метод повышает естественность, не жертвуя верностью к условным сигналам. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты укрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по адресу: https://whwjdqls.github.io/discord.github.io/.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

Эффективное декодирование в визуальном авто-регрессионном моделировании: концепция Collaborative Decoding

В стремительно развивающейся области генерации изображений моделирование визуальной авто-регрессии (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего масштаба. Эта парадигма предлагает значительные улучшения в эффективности, масштабируемости и обобщении в условиях нулевых данных. Тем не менее, врожденная грубая к тонкой природе VAR приводит к удлиненной последовательности токенов, что приводит к непомерному потреблению памяти и вычислительным излишком. Чтобы решить эти узкие места, мы предлагаем совместное декодирование (CoDe), новую эффективную стратегию декодирования, разработанную для VAR-структуры. CoDe использует два критически важных наблюдения: значительно сниженные требования к параметрам на больших масштабах и эксклюзивные паттерны генерации на различных масштабах. Основываясь на этих идеях, мы разделяем процесс многомасштабного вывода на бесшовное сотрудничество между большой моделью и маленькой моделью. Большая модель выступает в роли «черновика», специализируясь на генерации низкочастотного контента на меньших масштабах, в то время как меньшая модель выступает в роли «усовершенствователя», сосредотачиваясь исключительно на предсказании высокочастотных деталей на больших масштабах. Это сотрудничество обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает увеличения скорости в 1.7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с лишь незначительным увеличением FID с 1.95 до 1.98. Когда шаги черновика еще больше сокращаются, CoDe может достичь впечатляющего коэффициента ускорения 2.9, достигая 41 изображения в секунду при разрешении 256x256 на одном GPU NVIDIA 4090, сохраняя при этом достойный FID 2.27. Код доступен по адресу https://github.com/czg1225/CoDe

DreamMix: Разделение атрибутов объектов для повышенной редактируемости в пользовательской ретуши изображений

Вот перевод текста на русский язык: --- **Тема: Направленное восстановление изображений** выдвинуто в качестве популярной задачи в области редактирования изображений на фоне последних достижений в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с поддержанием возможности редактирования вставленных объектов. В ответ на это, данная статья представляет **DreamMix** — генеративную модель на основе диффузии, которая способна вставлять целевые объекты в заданные сцены по указанным пользователем местам, одновременно позволяя произвольные текстово-направленные изменения их атрибутов. В частности, мы используем продвинутые базовые модели восстановления изображений и вводим фреймворк локально-глобального восстановления для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Дополнительно, мы предлагаем механизм декомпозиции атрибутов (ADM) и модуль подстановки текстовых атрибутов (TAS), чтобы улучшить разнообразие и дискриминативную способность текстового руководства по атрибутам. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и восстановление малых объектов. Наш код доступен в открытом доступе по адресу: https://github.com/mycfhs/DreamMix.

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

Введение в CAD-MLLM: Объединение Генерации CAD с Мультимодальными Условиями

Эта статья направлена на разработку унифицированной системы генерации компьютерного проектирования (САПР), которая может легко создавать модели САПР на основе вводимых пользователем данных в виде текстового описания, изображений, облаков точек или их комбинации. В достижении этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические модели САПР, учитывая многомодальные входные данные. Конкретно, в рамках фреймворка CAD-MLLM, мы используем последовательности команд моделей САПР, а затем применяем продвинутые большие языковые модели (LLMs) для выравнивания пространства признаков между этими разнообразными многомодальными данными и векторизованными представлениями моделей САПР. Для облегчения обучения модели мы разработали комплексный конвейер конструирования и аннотации данных, который оснащает каждую модель САПР соответствующими многомодальными данными. Наш полученный набор данных, названный Omni-CAD, является первым многомодальным набором данных САПР, содержащим текстовое описание, изображения с различных ракурсов, точки и последовательность команд для каждой модели САПР. Он содержит примерно 450 тысяч экземпляров и их последовательностей построения САПР. Для тщательной оценки качества сгенерированных моделей САПР мы идем дальше текущих метрик оценки, сфокусированных на качестве восстановления, вводя дополнительные метрики, которые оценивают качество топологии и степень охвата поверхности. Результаты обширных экспериментов показывают, что CAD-MLLM значительно превосходит существующие методы условной генерации и остается высоко устойчивым к шумам и отсутствующим точкам. Страница проекта и дополнительные визуализации доступны по адресу: https://cad-mllm.github.io/

AutoVFX: Физически реалистичное редактирование видео с помощью инструкций на естественном языке

Современное программное обеспечение для визуальных эффектов (VFX) позволяет талантливым художникам создавать изображения практически чего угодно. Однако процесс создания остается трудоемким, сложным и в основном недоступным для повседневных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Внимательно интегрируя нейронное моделирование сцен, генерацию кода на основе LLM и физическое моделирование, AutoVFX способен предоставлять физически обоснованные, фотореалистичные эффекты редактирования, которые можно контролировать напрямую с помощью инструкций на естественном языке. Мы провели обширные эксперименты для проверки эффективности AutoVFX на широком спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX превосходит все конкурирующие методы с большим отрывом в качестве генерации, соответствии инструкциям, универсальности редактирования и физической правдоподобности.

Исследование дизайна пользовательских интерфейсов и методов взаимодействия в приложениях с генеративным ИИ

Применение генеративного ИИ стало чрезвычайно впечатляющим, и взаимодействие между пользователями и ИИ стало еще более значимым. Современная литература по взаимодействию человека с ИИ рассматривает в общем виде, как люди взаимодействуют с генеративным ИИ, однако она не углубляется в детали по поводу дизайна пользовательского интерфейса и паттернов, используемых для создания этих приложений. Поэтому мы представляем обзор, который всесторонне освещает таксономии взаимодействия человека с ИИ и паттерны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных актуальных случаев использования. Мы в основном сосредотачиваемся на взаимодействиях, инициированных пользователем, изучая те, которые начинаются с действий пользователя и не включают в себя никакие неявные сигналы с его стороны. С помощью этого обзора мы стремимся создать справочник различных паттернов пользовательского взаимодействия, который может служить ориентиром как для дизайнеров, так и для разработчиков. В процессе этого мы также стремимся снизить порог входа для тех, кто хочет узнать больше о дизайне приложений генеративного ИИ.

Раскрытие SDXL Turbo: Интерпретация текст-на-изображение моделей с помощью разреженных автокодировщиков

Редкие автоэнкодеры (SAEs) стали ключевым компонентом в обратной инженерии крупных языковых моделей (LLMs). Для LLM было показано, что они разлагают промежуточные представления, которые часто не являются напрямую интерпретируемыми, на разреженные суммы интерпретируемых признаков, что способствует лучшему контролю и последующему анализу. Однако подобные анализы и подходы отсутствовали для моделей преобразования текста в изображение. Мы исследовали возможность использования SAEs для изучения интерпретируемых признаков для моделей диффузии текста в изображение за несколько шагов, таких как SDXL Turbo. С этой целью мы обучили SAEs на обновлениях, выполняемых блоками трансформеров внутри SDXL Turbo's denoising U-net. Мы обнаружили, что их изученные признаки интерпретируемы, оказывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы нашли один блок, который в основном занимается композицией изображения, другой, который в основном отвечает за добавление локальных деталей, и третий - за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом на пути к лучшему пониманию внутренностей генеративных моделей преобразования текста в изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изучаемых SAEs, для визуальной области. Код доступен по адресу https://github.com/surkovv/sdxl-unbox.