Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "denoising"

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

Поле синтеза новых видов сделало значительные шаги вперед благодаря развитию методов полей яркости. Однако большинство техник полей яркости гораздо лучше справляются с интерполяцией новых видов, чем с экстраполяцией, где синтезируемые новые виды значительно отличаются от наблюдаемых тренировочных видов. Мы разработали ViewExtrapolator, подход к синтезу новых видов, который использует генеративные приоритеты стабильной видеодиффузии (SVD) для реалистичной экстраполяции новых видов. Переработав процесс удаления шума SVD, ViewExtrapolator улучшает качество видов, подверженных артефактам, которые отображаются полями яркости, значительно повышая ясность и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором новых видов, который может работать с различными типами 3D-рендеринга, такими как виды, отображаемые из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, ViewExtrapolator не требует тонкой настройки SVD, что делает его эффективным по данным и вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции новых видов. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.