Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области искусственного интеллекта в здравоохранении, включая медицинские большие языковые модели (LLMs) и большие многомодальные модели (LMMs), открываются новые горизонты для улучшения доступа к качественным медицинским консультациям. Однако большинство из этих разработок по-прежнему ориентированы на английский язык, что создает значительные пробелы в удовлетворении потребностей неанглоязычных популяций, таких как арабоязычные страны. Это ограничение доступности и полезности решений на основе ИИ в области здравоохранения требует создания более инклюзивных и многоязычных моделей.
В этой статье мы рассмотрим BiMediX2, новую билингвальную многомодальную модель, которая сочетает текстовые и визуальные модальности для улучшения понимания медицинских изображений и текстов. BiMediX2 построена на архитектуре Llama3.1 и обучена на обширном билингвальном наборе данных, состоящем из 1,6 миллиона образцов медицинских взаимодействий на арабском и английском языках.
BiMediX2 представляет собой унифицированную архитектуру, которая интегрирует текстовые и визуальные возможности, позволяя проводить многоходовые разговоры и обрабатывать медицинские изображения. Модель использует Vision Encoder для обработки различных медицинских изображений, включая рентгеновские снимки, КТ, МРТ и гистологические слайды. Эти визуальные данные выравниваются с текстовыми входами через специальный проектор, что обеспечивает точное и контекстуально насыщенное сопоставление изображений и текстов.
Текстовые входы обрабатываются с использованием стандартного токенизатора, который преобразует их в языковое пространство Llama 3.1. Это позволяет BiMediX2 генерировать точные и контекстуально осведомленные ответы на запросы пользователей на английском или арабском языках в зависимости от заданного языка.
Ключевым аспектом производительности BiMediX2 является модульный и эффективный подход к обучению. Для настройки языковой модели используются адаптеры LoRA, что позволяет поддерживать вычислительную эффективность и минимизировать ресурсы. Проектор одновременно настраивается для оптимизации выравнивания изображений и текста в медицинском контексте.
Кроме того, система поддерживается надежной системой генерации данных, в которой обширный английский корпус данных переводится на арабский с использованием GPT-4o, а случайная выборка этого перевода тщательно проверяется медицинскими экспертами для обеспечения клинической релевантности и языковой точности.
BiMediX2 вносит значительный вклад в область медицинского ИИ через следующие ключевые аспекты:
Билингвальная поддержка: Модель обеспечивает надежную поддержку как английского, так и арабского языков, что позволяет адресовать потребности арабоязычных регионов и предоставляет инклюзивное решение для многоязычных и многомодальных медицинских приложений.
Широкий спектр медицинских задач: BiMediX2 охватывает широкий спектр медицинских задач, включая многоходовые разговоры, генерацию отчетов и визуальные вопросы-ответы (VQA). Это делает модель универсальным инструментом для различных медицинских специальностей.
Набор данных BiMed-V: Для обучения модели был создан обширный билингвальный набор данных BiMed-V, состоящий из более чем 1,6 миллиона инструкций, что значительно улучшает возможности медицинского понимания и выравнивания изображений.
Бенчмарки BiMed-MBench: BiMediX2 представила первый билингвальный медицинский LMM бенчмарк, который включает 286 медицинских запросов на английском и арабском языках, что позволяет оценить производительность модели в различных медицинских задачах.
BiMediX2 была протестирована на нескольких медицинских бенчмарках, включая USMLE, MedQA и PubMedQA, где она продемонстрировала выдающиеся результаты, опередив другие современные модели, такие как GPT-4. В частности, BiMediX2 показала улучшение более чем на 9% в оценках на английском языке и более чем на 20% в арабских оценках.
Для оценки качества BiMediX2 использовались различные метрики, включая точность, полезность и релевантность ответов. Модель показала выдающиеся результаты в задачах генерации отчетов и суммирования, что подтверждает ее способность к созданию точных и лаконичных медицинских отчетов.
BiMediX2 продемонстрировала свои возможности в анализе медицинских изображений и предоставлении контекстно-осведомленных ответов. Например, в одном из случаев модель идентифицировала тип КТ-скана и объяснила наличие перелома, что может значительно помочь медицинским работникам в процессе диагностики.
BiMediX2 представляет собой значительный шаг вперед в области билингвальных многомодальных медицинских ИИ, предоставляя доступные и инклюзивные решения для здравоохранения. Интеграция текстовых и визуальных модальностей в унифицированную архитектуру позволяет проводить многоходовые взаимодействия и решать разнообразные медицинские задачи.
Создание набора данных BiMed-V и бенчмарка BiMed-MBench подчеркивает важность многоязычного подхода в медицинском ИИ. BiMediX2 открывает новые горизонты для улучшения качества медицинских консультаций и доступа к медицинской информации, что имеет огромное значение для улучшения здоровья населения в разных регионах мира.