Свежая выжимка ml и AI статей - каждый день
В последние годы крупномасштабные модели зрения-языка (LVLMs) значительно развились, эффективно интегрируя визуальное восприятие с пониманием языка. Эти модели используют большие объемы мультимодальных данных, что позволяет им захватывать сложные визуальные и текстовые паттерны и достигать значительных успехов в задачах распознавания изображений, обработки естественного языка и мультимодальных задачах. С развитием технологий интеграции мультимодальных данных, потребность в высокоточной обработке различных типов данных в медицинской сфере становится все более критичной. Способность эффективно интегрировать и анализировать различные модальности данных, такие как медицинские изображения, клинический текст и структурированные медицинские записи, является ключевой для точной диагностики и принятия клинических решений.
Однако существующие LVLMs, такие как GPT-4, ограничены в медицинских приложениях из-за отсутствия специализированных знаний в этой области. Это подчеркивает необходимость в решениях, которые эффективно интегрируют медицинскую экспертизу. Для решения этой проблемы требуется создание обширного медицинского набора данных зрения-языка и разработка специализированных моделей для медицинской сферы.
Для создания обширного мультимодального медицинского набора данных, мы собрали 219 наборов данных с различных платформ, таких как Kaggle, Grand Challenge и Huggingface. Эти наборы данных охватывают разнообразные медицинские задачи, включая диагностику заболеваний, оценку тяжести и распознавание органов, а также включают в себя множество клинических специальностей, таких как патология, дерматология, офтальмология и онкология.
После сбора данных, мы применили рабочий процесс предварительной обработки для извлечения 2D медицинских изображений из видео и 3D медицинских объемов. Для очистки данных, мы извлекли ключевую информацию аннотаций из классификационных данных, включая модальность, отделение и метки для каждого изображения, отбрасывая экземпляры с отсутствующими или нечеткими аннотациями. Для данных сегментации, мы следовали методу предварительной обработки SA-Med2D-20M, фильтруя низкокачественные изображения и метки, и преобразуя их в наборы данных для детекции.
Затем данные были разделены на два основных типа: классификационные наборы данных и наборы данных для детекции/сегментации. Каждый тип был дополнительно уточнен с использованием специфических запросов, адаптированных для обучения крупных моделей. Для генерации данных использовались крупные модели зрения-языка (например, GPT-4o), которые производили детальные описания изображений и соответствующие инструкции для обучения моделей.
Эти наборы данных охватывают разнообразные медицинские задачи и модальности, формируя прочную основу для разработки и оценки медицинских LVLMs. Визуализация распределения модальностей, задач, клинических отделений и конкретных медицинских вызовов, представленных в собранных наборах данных, показывает обширную разнообразность и покрытие наших усилий по сбору данных.
Точность и надежность сгенерированных данных обеспечивается двумя ключевыми аспектами:
GMAI-VL-5.5M выделяется благодаря своему беспрецедентному масштабу, охватывая более 5.5 миллионов образцов из более чем 219 специализированных медицинских наборов данных. В отличие от других перечисленных наборов данных, GMAI-VL-5.5M поддерживает более широкий спектр модальностей и языков, делая его действительно глобальным ресурсом, который удовлетворяет разнообразные клинические потребности. Кроме того, GMAI-VL-5.5M акцентирует внимание на прослеживаемости данных, обеспечивая высокий стандарт клинической релевантности и надежности.