Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "adversarial"

Prompt2Perturb: Текстово-ориентированные атакующие методы диффузионного типа для изображений ультразвука молочной железы

Глубокие нейронные сети (DNN) предлагают значительные перспективы для улучшения диагностики рака молочной железы в медицинской визуализации. Однако эти модели крайне подвержены атакам с противодействием – небольшим, незаметным изменениям, которые могут вводить классификаторы в заблуждение, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки полагаются на фиксированные нормы возмущений, которые не совпадают с человеческим восприятием. В contrast, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительных данных, когда эти модели недоступны, ограничивая практическое использование в условиях нехватки данных. Однако в медицинской визуализации это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на недавних достижениях в обучаемых подсказках, мы предлагаем Prompt2Perturb (P2P), новый метод атаки, основанный на языке, способный генерировать значимые примеры атак, движимые текстовыми инструкциями. На этапе обучения подсказкам наш подход использует обучаемые подсказки в текстовом энкодере для создания тонких, но значительных возмущений, которые остаются незаметными, направляя модель к целевым результатам. В отличие от текущих подходов, основанных на обучении подсказкам, наш P2P выделяется тем, что непосредственно обновляет текстовые встраивания, избегая необходимости повторной тренировки диффузионных моделей. Более того, мы используем вывод, что оптимизация только ранних обратных шагов диффузии увеличивает эффективность, при этом обеспечивая, чтобы созданные примеры противодействия включали тонкий шум, сохраняя при этом качество ультразвуковых изображений без введения заметных артефактов. Мы показываем, что наш метод превосходит передовые методы атаки по трем наборам данных ультразвука молочной железы по FID и LPIPS. Более того, созданные изображения выглядят более естественно и более эффективно по сравнению с существующими атаками с противодействием. Наш код будет доступен публике https://github.com/yasamin-med/P2P.

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

Negative Token Merging: Новые горизонты в управлении генерацией изображений

Текстовая адверсариальная направленность с использованием отрицательного запроса стала широко распространенным подходом для отдаления выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение адверсариального управления только с помощью текста может быть недостаточным для захвата сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя адверсариальное руководство непосредственно с использованием визуальных характеристик из эталонного изображения или других изображений в партии. В частности, мы представляем объединение отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который выполняет адверсариальное руководство, выборочно раздвигая совпадающие семантические характеристики (между эталоном и выходным генерацией) в процессе обратной диффузии. При использовании в отношении других изображений из той же партии мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное) без ущерба для качества выходного изображения. Аналогично, при использовании в отношении защищенного авторским правом актива по эталону, NegToMe помогает уменьшить визуальное сходство с защищенным контентом на 34,57%. NegToMe просто реализуется с использованием всего нескольких строк кода, использует лишь незначительно большее (<4%) время вывода и обобщается на разные архитектуры диффузии, такие как Flux, которые изначально не поддерживают использование отдельного отрицательного запроса. Код доступен по адресу https://negtome.github.io

NitroFusion: Высококачественная одноступенчатая диффузия через динамическое противостоящее обучение

Мы представляем NitroFusion, принципиально новый подход к одномоментной диффузии, который достигает высокого качества генерации с помощью динамической антагонистической структуры. Хотя одномоментные методы предлагают значительные преимущества в скорости, они, как правило, страдают от ухудшения качества по сравнению с многомоментными аналогами. Точно так же, как панель критиков искусства предоставляет всестороннюю обратную связь, специализируясь на различных аспектах, таких как композиция, цвет и техника, наш подход сохраняет большой пул специализированных дискриминаторов, которые вместе направляют процесс генерации. Каждая группа дискриминаторов развивает экспертизу в определенных аспектах качества на разных уровнях шума, предоставляя разнообразную обратную связь, которая позволяет добиться высококачественной одномоментной генерации. Наша структура сочетает: (i) динамический пул дискриминаторов со специализированными группами дискриминаторов для улучшения качества генерации, (ii) стратегические механизмы обновления для предотвращения переобучения дискриминаторов, и (iii) глобально-локальные дискриминаторы для оценки качества на различных масштабах, а также безусловное/условное обучение для сбалансированной генерации. Кроме того, наша структура уникально поддерживает гибкое развертывание через усовершенствование снизу-вверх, позволяя пользователям динамически выбирать между 1-4 шагами денойзинга с использованием одной и той же модели для прямого компромисса между качеством и скоростью. Через комплексные эксперименты мы демонстрируем, что NitroFusion значительно превосходит существующие одномоментные методы по множеству оценочных метрик, особенно выделяясь в сохранении тонких деталей и глобальной согласованности.