Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "modalities"

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.