Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "guidance"

Дисентанглинг позы: управление анимацией человеческих изображений

Контролируемая анимация человеческого изображения направлена на генерацию видео из эталонных изображений с использованием управляющих видеозаписей. Из-за ограниченных контрольных сигналов, предоставляемых разреженным управлением (например, поза скелета), в недавних работах были предприняты попытки ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить согласование движений. Однако такое строгое плотное управление ухудшает качество сгенерированного видео, когда форма тела эталонного персонажа значительно отличается от формы тела в управляющем видео. В этой статье мы представляем DisPose, чтобы извлечь более универсальные и эффективные контрольные сигналы без дополнительного плотного ввода, который разделяет разреженную позу скелета в анимации человеческого изображения на руководство полем движений и соответствие ключевым точкам. В частности, мы генерируем плотное поле движений из разреженного поля движений и эталонного изображения, что обеспечивает плотное руководство на уровне регионов, сохраняя возможность обобщения разреженного контроля позы. Мы также извлекаем диффузионные признаки, соответствующие ключевым точкам позы из эталонного изображения, и затем эти точечные признаки передаются на целевую позу для предоставления четкой идентификационной информации. Чтобы бесшовно интегрироваться в существующие модели, мы предлагаем гибридный ControlNet, который улучшает качество и согласованность сгенерированных видео, замораживая параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.

Negative Token Merging: Новые горизонты в управлении генерацией изображений

Текстовая адверсариальная направленность с использованием отрицательного запроса стала широко распространенным подходом для отдаления выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение адверсариального управления только с помощью текста может быть недостаточным для захвата сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя адверсариальное руководство непосредственно с использованием визуальных характеристик из эталонного изображения или других изображений в партии. В частности, мы представляем объединение отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который выполняет адверсариальное руководство, выборочно раздвигая совпадающие семантические характеристики (между эталоном и выходным генерацией) в процессе обратной диффузии. При использовании в отношении других изображений из той же партии мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное) без ущерба для качества выходного изображения. Аналогично, при использовании в отношении защищенного авторским правом актива по эталону, NegToMe помогает уменьшить визуальное сходство с защищенным контентом на 34,57%. NegToMe просто реализуется с использованием всего нескольких строк кода, использует лишь незначительно большее (<4%) время вывода и обобщается на разные архитектуры диффузии, такие как Flux, которые изначально не поддерживают использование отдельного отрицательного запроса. Код доступен по адресу https://negtome.github.io

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей

Недавние подходы дали обнадеживающие результаты в дистилляции многоступенчатых моделей диффузии текста в изображение в одноступенчатые. Современная эффективная техника дистилляции, а именно SwiftBrushv2 (SBv2), даже превосходит производительность модель-учителя при ограниченных ресурсах. Однако наше исследование показывает ее нестабильность при работе с разными основами моделей диффузии из-за использования фиксированной шкалы управления внутри потерь Вариационной Дистилляции Оценки (VSD). Еще одной слабостью существующих одноступенчатых моделей диффузии является отсутствие поддержки отрицательной подсказки, что критически важно в практической генерации изображений. Эта статья представляет SNOOPI, новую структуру, разработанную для решения этих ограничений путем улучшения управления в одноступенчатых моделях диффузии как в процессе обучения, так и в процессе вывода. Во-первых, мы эффективно увеличиваем стабильность обучения через Правильное Управление-SwiftBrush (PG-SB), которое использует подход классификации без-guidance с произвольной шкалой. Путем изменения шкалы управления у обеих модель-учителей мы расширяем их распределения выходных данных, что приводит к более надежным потерям VSD, которые позволяют SB эффективно работать с разнообразными основами, сохраняя при этом конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Вниманием Направленным Вперёд Отрицательно (NASA), который интегрирует отрицательные подсказки в одноступенчатые модели диффузии через перекрестное внимание, чтобы подавить нежелательные элементы в генерируемых изображениях. Наши экспериментальные результаты показывают, что предлагаемые нами методы значительно улучшают базовые модели по различным метрикам. Удивительно, но мы достигаем балла HPSv2 31.08, устанавливая новую современную эталонную оценку для одноступенчатых моделей диффузии.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.