GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

В последние годы крупномасштабные модели зрения-языка (LVLMs) значительно развились, эффективно интегрируя визуальное восприятие с пониманием языка. Эти модели используют большие объемы мультимодальных данных, что позволяет им захватывать сложные визуальные и текстовые паттерны и достигать значительных успехов в задачах распознавания изображений, обработки естественного языка и мультимодальных задачах. С развитием технологий интеграции мультимодальных данных, потребность в высокоточной обработке различных типов данных в медицинской сфере становится все более критичной. Способность эффективно интегрировать и анализировать различные модальности данных, такие как медицинские изображения, клинический текст и структурированные медицинские записи, является ключевой для точной диагностики и принятия клинических решений.

Однако существующие LVLMs, такие как GPT-4, ограничены в медицинских приложениях из-за отсутствия специализированных знаний в этой области. Это подчеркивает необходимость в решениях, которые эффективно интегрируют медицинскую экспертизу. Для решения этой проблемы требуется создание обширного медицинского набора данных зрения-языка и разработка специализированных моделей для медицинской сферы.

GMAI-VL-5.5M: Обширный мультимодальный набор данных

Создание данных

Для создания обширного мультимодального медицинского набора данных, мы собрали 219 наборов данных с различных платформ, таких как Kaggle, Grand Challenge и Huggingface. Эти наборы данных охватывают разнообразные медицинские задачи, включая диагностику заболеваний, оценку тяжести и распознавание органов, а также включают в себя множество клинических специальностей, таких как патология, дерматология, офтальмология и онкология.

Предварительная обработка данных

После сбора данных, мы применили рабочий процесс предварительной обработки для извлечения 2D медицинских изображений из видео и 3D медицинских объемов. Для очистки данных, мы извлекли ключевую информацию аннотаций из классификационных данных, включая модальность, отделение и метки для каждого изображения, отбрасывая экземпляры с отсутствующими или нечеткими аннотациями. Для данных сегментации, мы следовали методу предварительной обработки SA-Med2D-20M, фильтруя низкокачественные изображения и метки, и преобразуя их в наборы данных для детекции.

Генерация данных

Затем данные были разделены на два основных типа: классификационные наборы данных и наборы данных для детекции/сегментации. Каждый тип был дополнительно уточнен с использованием специфических запросов, адаптированных для обучения крупных моделей. Для генерации данных использовались крупные модели зрения-языка (например, GPT-4o), которые производили детальные описания изображений и соответствующие инструкции для обучения моделей.

Свойства данных

Статистика данных

Эти наборы данных охватывают разнообразные медицинские задачи и модальности, формируя прочную основу для разработки и оценки медицинских LVLMs. Визуализация распределения модальностей, задач, клинических отделений и конкретных медицинских вызовов, представленных в собранных наборах данных, показывает обширную разнообразность и покрытие наших усилий по сбору данных.

Точность и надежность сгенерированных данных

Точность и надежность сгенерированных данных обеспечивается двумя ключевыми аспектами:

Надежность источника данных: Данные для генерации в основном берутся из профессиональных медицинских конкурсов и публично доступных, рецензируемых наборов данных, что гарантирует целостность и точность данных на уровне источника.
Контроль процесса генерации данных: Хотя для генерации данных использовался GPT, запросы были тщательно разработаны для включения ключевых аннотаций, минимизируя ошибки и галлюцинации. Методология, руководствуемая аннотациями, интегрирует конкретные аннотации для производства точных, высококачественных описаний, значительно повышая надежность сгенерированных данных.

Сравнение с другими медицинскими мультимодальными наборами данных

GMAI-VL-5.5M выделяется благодаря своему беспрецедентному масштабу, охватывая более 5.5 миллионов образцов из более чем 219 специализированных медицинских наборов данных. В отличие от других перечисленных наборов данных, GMAI-VL-5.5M поддерживает более широкий спектр модальностей и языков, делая его действительно глобальным ресурсом, который удовлетворяет разнообразные клинические потребности. Кроме того, GMAI-VL-5.5M акцентирует внимание на прослеживаемости данных, обеспечивая высокий стандарт клинической релевантности и надежности.

Статья на arxiv Оригинал pdf ai dataset benchmark

Ай Дайджест