Свежая выжимка ml и AI статей - каждый день
Многомодальные большие языковые модели (MLLMs) достигли значительного прогресса в последние годы, демонстрируя впечатляющие возможности в понимании и рассуждении о визуальном мире. Однако, несмотря на эти достижения, они продолжают сталкиваться с проблемами в области низкоуровневого визуального восприятия (LLVP), особенно в способности точно описывать геометрические детали изображений. Эта способность критически важна для применения в таких областях, как робототехника, анализ медицинских изображений и производство.
В данной статье мы представляем новый бенчмарк, который мы назвали Geoperception, разработанный для оценки способности MLLMs точно транскрибировать 2D геометрическую информацию из изображений. Мы демонстрируем ограничения существующих моделей и проводим обширное эмпирическое исследование, чтобы изучить стратегии улучшения их производительности в геометрических задачах.
Существующие MLLMs, такие как LLaVA и другие, показывают сильные результаты в задачах, таких как визуальное вопросно-ответное взаимодействие (VQA) и создание подписи к изображениям. Однако их успех в этих задачах часто зависит от высокоуровневой семантической экстракции, и они часто не справляются с задачами, требующими точного описания геометрических деталей. Например, в задачах, связанных с математическим решением визуальных проблем или научным пониманием визуальных данных, точное распознавание объектов и пространственных отношений имеет решающее значение.
В реальном мире LLVP играет важную роль в различных приложениях:
Мы разработали бенчмарк Geoperception, который фокусируется на задачах 2D геометрии, чтобы оценить способности MLLMs в области низкоуровневого визуального восприятия. Бенчмарк включает в себя набор задач, основанных на классических геометрических принципах, таких как:
Эти задачи позволяют нам оценить, как модели справляются с различными аспектами геометрического восприятия.
Для оценки производительности MLLMs на бенчмарке Geoperception мы использовали набор изображений и логических форм, которые представляют геометрические задачи. Каждая задача преобразуется в вопрос и ответ, что позволяет нам оценить способность модели извлекать правильную информацию из визуальных данных.
Мы провели обширное эмпирическое исследование, чтобы выявить коренные причины недостаточной производительности MLLMs в задачах LLVP. Наше исследование показало, что использование синтетических данных и многоуровневое обучение с использованием учебного плана значительно улучшает результаты моделей.
Мы разработали движок для генерации синтетических данных, который позволяет создавать высококачественные визуальные описания геометрических элементов. Этот движок способен генерировать бесконечное количество визуальных экземпляров для каждой из логических форм, что позволяет моделям обучаться на разнообразных данных.
Наше исследование также показало, что многоуровневое обучение с использованием учебного плана позволяет моделям учиться на более сложных задачах, которые они не могут освоить с нуля. Мы применили стратегию, при которой модели сначала обучаются на простых задачах, а затем постепенно переходят к более сложным.
На основе полученных выводов мы разработали семейство моделей, названное Euclid, которое специально оптимизировано для низкоуровневого геометрического восприятия. Несмотря на то, что модели Euclid обучаются исключительно на синтетических данных, они демонстрируют сильные способности к обобщению на реальные геометрические изображения.
В ходе тестирования модели Euclid показали значительное превосходство над существующими MLLMs, такими как Gemini-1.5-Pro, с улучшением производительности до 58.56% на некоторых задачах бенчмарка Geoperception. Это подтверждает, что синтетические данные и правильно организованное обучение могут значительно улучшить способности моделей в области низкоуровневого визуального восприятия.
Мы подчеркиваем важность точного низкоуровневого визуального восприятия в MLLMs и представляем бенчмарк Geoperception как первый шаг к улучшению этой области. Наша работа показывает, что использование синтетических данных и многоуровневое обучение с учебным планом могут значительно повысить производительность моделей в геометрических задачах.
В будущем мы планируем исследовать несколько направлений:
Наша работа открывает новые горизонты для улучшения MLLMs и их применения в реальных задачах, требующих точного визуального восприятия.