BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений
В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.