Свежая выжимка ml и AI статей - каждый день
Сегментация медицинских изображений, особенно в области магнитно-резонансной томографии (МРТ), является ключевым направлением в интеллектуальной медицине. Однако, несмотря на значительные достижения в этой области благодаря глубоким нейронным сетям, существуют серьезные проблемы, связанные с гетерогенностью модальностей и нехваткой аннотированных данных. Эти ограничения значительно затрудняют разработку надежных моделей сегментации для неаннотированных модальностей.
В данной статье мы представляем новый подход, основанный на генеративных моделях, который позволяет контролируемо синтезировать данные для модальностей, не имеющих аннотаций. Мы разработали диффузионный движок данных, названный MRGen, который позволяет генерировать изображения МРТ, используя текстовые подсказки и маски, что способствует обучению моделей сегментации на неаннотированных модальностях.
Одной из главных причин, ограничивающих применение моделей сегментации в медицине, является нехватка аннотированных данных. В большинстве случаев для обучения требуется большая выборка изображений с масками, что требует значительных временных и финансовых затрат. Существующие генеративные модели, как правило, зависят от аннотированных данных, что ограничивает их масштабируемость к недостаточно аннотированным или неаннотированным модальностям.
В отличие от традиционных подходов, которые требуют зарегистрированных пар данных для генерации изображений, MRGen вводит новый парадигму, позволяя контролируемую генерацию данных без необходимости в таких парах. Это достигается путем синтеза изображений, основанных на текстовых подсказках и масках, что делает возможным расширение сегментации на модальности, для которых отсутствуют аннотации.
Генеративные модели, такие как GAN и диффузионные модели, стали предметом активных исследований в области компьютерного зрения. Эти модели находят широкое применение в различных задачах, включая генерацию изображений, перевод изображений и даже создание видео. Однако большинство существующих подходов сосредоточены на генерации данных в рамках аннотированных модальностей, что ограничивает их применение в медицине.
Существующие работы в области медицинской синтезии изображений направлены на улучшение моделей анализа изображений или решение таких проблем, как нехватка данных и конфиденциальность. Однако модели, такие как DiffTumor и FreeTumor, фокусируются на генерации изображений опухолей для улучшения сегментации опухолей, и часто сталкиваются с трудностями при генерации данных для неаннотированных модальностей.
Для разработки нашего движка данных мы собрали и курировали крупномасштабный радиологический набор данных, названный MedGen-1M. Этот набор включает в себя изображения МРТ и КТ различных модальностей, собранных из открытых источников, и содержит около 1,2 миллиона 2D-срезов.
Мы собрали данные из различных открытых источников, включая Radiopaedia, чтобы создать большие выборки изображений с аннотациями. Наша курация данных включает в себя модальные метки, атрибуты, информацию о регионах и органах, а также подмножество с аннотациями масок органов.
Для автоматической аннотации мы используем BiomedCLIP, чтобы классифицировать изображения в шесть категорий, включая верхнюю и нижнюю части тела. Это позволяет обеспечить более точную аннотацию и улучшить качество данных для обучения.
MRGen фокусируется на синтезе изображений МРТ, используя текстовые подсказки и маски. Мы формулируем задачу как генерацию радиологических изображений, основанных на этих условиях. Это позволяет нам создавать синтетические данные для обучения моделей сегментации на неаннотированных модальностях.
MRGen состоит из трех основных компонентов:
Латентное Кодирование: Мы используем автоэнкодеры для сжатия изображений в латентное пространство, что позволяет эффективно работать с высокоразрешающими медицинскими изображениями.
Генерация под Условием Текста: Этот компонент использует диффузионные модели для генерации изображений, основанных на текстовых подсказках. Мы добавляем шум к латентным признакам и обучаем модель восстанавливать изображения из этого шума.
Генерация под Условием Маски: Мы интегрируем маски в процесс генерации, что позволяет улучшить контролируемость и качество генерируемых изображений.
Обучение MRGen проходит в два этапа:
Предварительное Обучение на Текстовых Данных: Мы обучаем модель на большом количестве пар изображений и текстов, что позволяет ей научиться генерировать изображения различных модальностей на основе текстовых описаний.
Финетюнинг на Данных с Аннотациями Масок: На этом этапе мы дообучаем модель на данных с аннотациями масок, что позволяет улучшить контролируемость генерации.
Во время инференса MRGen принимает текстовые подсказки и маски органов в качестве входных данных, генерируя соответствующие изображения МРТ. Эти синтетические данные могут быть использованы для обучения моделей сегментации на модальностях, для которых ранее не было доступно аннотированных данных.
Для обеспечения качества генерируемых изображений мы разработали автоматическую фильтрацию, используя SAM2, которая предсказывает уверенность сегментации и использует псевдомаски для оценки качества синтетических образцов. Это позволяет отсеивать низкокачественные изображения и улучшать результаты сегментации.
Мы провели эксперименты для оценки нашей модели с точки зрения генерации изображений и сегментации. Для этого мы создали восемь пар наборов данных, каждая из которых состояла из аннотированных и неаннотированных данных.
Наши результаты показывают, что MRGen значительно улучшает качество генерируемых изображений по сравнению с традиционными подходами, такими как CycleGAN и DualNorm. Мы оценили качество с использованием метрик, таких как FID и коэффициент Дайса (DSC).
Качественные результаты подтверждают, что MRGen может эффективно генерировать изображения, которые соответствуют заданным условиям, что является важным для обучения моделей сегментации.
В этой статье мы представили MRGen, диффузионный контролируемый движок данных для сегментации МРТ. Мы продемонстрировали, что наша модель может эффективно синтезировать данные для модальностей, не имеющих аннотаций, что открывает новые возможности для обучения моделей сегментации в медицине. Наши результаты показывают, что MRGen значительно улучшает качество сегментации на неаннотированных модальностях, что может иметь важные практические применения в области медицинской диагностики.