Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "noise"

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

Влияние OCR на Retrieval-Augmented Generation: Анализ и Оценка

Генерация с дополнением извлечения (RAG) улучшает большие языковые модели (LLMs) за счет интеграции внешних знаний для снижения галлюцинаций и внедрения актуальной информации без повторной тренировки. Важной частью RAG являются внешние базы знаний, которые обычно создаются путем извлечения структурированных данных из неконструированных PDF-документов с помощью оптического распознавания символов (OCR). Тем не менее, учитывая несовершенное предсказание OCR и врожденное ненормированное представление структурированных данных, базы знаний неизбежно содержат различные шумы OCR. В этой статье мы представляем OHRBench, первую стандартную опору для понимания каскадного влияния OCR на системы RAG. OHRBench включает 350 тщательно отобранных неконструированных PDF-документов из шести реальных областей применения RAG, а также вопросы и ответы, полученные из мультимодальных элементов в документах, ставя под сомнение существующие решения OCR, используемые для RAG. Чтобы лучше понять влияние OCR на системы RAG, мы определяем два основных типа шума OCR: семантический шум и шум форматирования и применяем возмущение для генерации набора структурированных данных с различной степенью каждого из шумов OCR. С помощью OHRBench мы сначала проводим комплексную оценку текущих решений OCR и показываем, что ни одно из них не подходит для построения высококачественных баз знаний для систем RAG. Затем мы систематически оцениваем влияние этих двух типов шумов и демонстрируем уязвимость систем RAG. Более того, мы обсуждаем потенциал использования моделей «Видение-Язык» (VLM) без OCR в системах RAG. Код: https://github.com/opendatalab/OHR-Bench

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

Стильные решения: SNR-сэмплер для генерации изображений с учетом стиля

Современные крупномасштабные диффузионные модели создают высококачественные изображения, но сталкиваются с трудностями при обучении новым, индивидуализированным художественным стилям, что ограничивает создание уникальных стилевых шаблонов. Наиболее перспективным подходом является тонкая настройка с использованием референсных изображений, однако часто это делается слепо, применяя те же цели и распределения уровней шума, что и при предварительном обучении, что приводит к неоптимальному соответствию стилю. Мы предлагаем новый метод - "самплер SNR, дружественный к стилю", который агрессивно смещает распределение отношения сигнал-шум (SNR) в сторону более высоких уровней шума во время тонкой настройки, фокусируясь на уровнях шума, где проявляются стилистические особенности. Это позволяет моделям лучше захватывать уникальные стили и генерировать изображения с более высокой стилевой согласованностью. Наш метод позволяет диффузионным моделям учиться и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы демонстрируем возможность создания стилей, таких как персональные акварельные картины, минималистичные плоские мультфильмы, 3D-визуализации, многопанельные изображения и мемы с текстом, тем самым расширяя диапазон генерации, основанной на стиле.

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

Ограниченные Диффузионные Имплицитные Модели (CDIM)

Эта статья описывает эффективный алгоритм для решения шумных линейных обратных задач с использованием предобученных моделей диффузии. Расширяя парадигму имплицитных моделей диффузии с деноизацией (DDIM), мы предлагаем ограниченные имплицитные модели диффузии (CDIM), которые изменяют обновления диффузии для выполнения ограничения на конечный результат. Для задач без шума CDIM точно удовлетворяет ограничениям; в шумном случае мы обобщаем CDIM так, чтобы он удовлетворял точному ограничению на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченным DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая суперразрешение, деноизацию, заполнение, удаление размытия и реконструкцию облака точек 3D.