Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Многомодальные большие языковые модели (MLLMs) достигли значительного прогресса в последние годы, демонстрируя впечатляющие возможности в понимании и рассуждении о визуальном мире. Однако, несмотря на эти достижения, они продолжают сталкиваться с проблемами в области низкоуровневого визуального восприятия (LLVP), особенно в способности точно описывать геометрические детали изображений. Эта способность критически важна для применения в таких областях, как робототехника, анализ медицинских изображений и производство.

В данной статье мы представляем новый бенчмарк, который мы назвали Geoperception, разработанный для оценки способности MLLMs точно транскрибировать 2D геометрическую информацию из изображений. Мы демонстрируем ограничения существующих моделей и проводим обширное эмпирическое исследование, чтобы изучить стратегии улучшения их производительности в геометрических задачах.

Проблемы низкоуровневого визуального восприятия

Существующие MLLMs, такие как LLaVA и другие, показывают сильные результаты в задачах, таких как визуальное вопросно-ответное взаимодействие (VQA) и создание подписи к изображениям. Однако их успех в этих задачах часто зависит от высокоуровневой семантической экстракции, и они часто не справляются с задачами, требующими точного описания геометрических деталей. Например, в задачах, связанных с математическим решением визуальных проблем или научным пониманием визуальных данных, точное распознавание объектов и пространственных отношений имеет решающее значение.

Примеры применения

В реальном мире LLVP играет важную роль в различных приложениях:

  • Робототехника: Для навигации и манипуляции роботам необходимо точно понимать расположение и форму объектов.
  • Медицинский анализ изображений: Точные описания анатомических структур необходимы для диагностики и планирования лечения.
  • Автономные системы вождения: Для безопасного передвижения необходимо точное локализование объектов и оценка расстояний.
  • Дополненная реальность: Для корректного наложения виртуальных объектов на реальные сцены требуется высокая точность в понимании геометрии.

Бенчмарк Geoperception

Мы разработали бенчмарк Geoperception, который фокусируется на задачах 2D геометрии, чтобы оценить способности MLLMs в области низкоуровневого визуального восприятия. Бенчмарк включает в себя набор задач, основанных на классических геометрических принципах, таких как:

  • Point Lies On Line: Определение, лежит ли точка на заданной линии.
  • Point Lies On Circle: Определение, лежит ли точка на заданной окружности.
  • Parallel/Perpendicular: Определение параллельности и перпендикулярности линий.
  • Angle Classification: Классификация углов (острые, тупые и прямые).
  • Line Comparison: Сравнение длин линий.

Эти задачи позволяют нам оценить, как модели справляются с различными аспектами геометрического восприятия.

Методология оценки

Для оценки производительности MLLMs на бенчмарке Geoperception мы использовали набор изображений и логических форм, которые представляют геометрические задачи. Каждая задача преобразуется в вопрос и ответ, что позволяет нам оценить способность модели извлекать правильную информацию из визуальных данных.

Эмпирическое исследование и синтетические данные

Мы провели обширное эмпирическое исследование, чтобы выявить коренные причины недостаточной производительности MLLMs в задачах LLVP. Наше исследование показало, что использование синтетических данных и многоуровневое обучение с использованием учебного плана значительно улучшает результаты моделей.

Синтетический движок данных

Мы разработали движок для генерации синтетических данных, который позволяет создавать высококачественные визуальные описания геометрических элементов. Этот движок способен генерировать бесконечное количество визуальных экземпляров для каждой из логических форм, что позволяет моделям обучаться на разнообразных данных.

Многоуровневое обучение с учебным планом

Наше исследование также показало, что многоуровневое обучение с использованием учебного плана позволяет моделям учиться на более сложных задачах, которые они не могут освоить с нуля. Мы применили стратегию, при которой модели сначала обучаются на простых задачах, а затем постепенно переходят к более сложным.

Модель Euclid

На основе полученных выводов мы разработали семейство моделей, названное Euclid, которое специально оптимизировано для низкоуровневого геометрического восприятия. Несмотря на то, что модели Euclid обучаются исключительно на синтетических данных, они демонстрируют сильные способности к обобщению на реальные геометрические изображения.

Результаты производительности

В ходе тестирования модели Euclid показали значительное превосходство над существующими MLLMs, такими как Gemini-1.5-Pro, с улучшением производительности до 58.56% на некоторых задачах бенчмарка Geoperception. Это подтверждает, что синтетические данные и правильно организованное обучение могут значительно улучшить способности моделей в области низкоуровневого визуального восприятия.

Заключение и будущее

Мы подчеркиваем важность точного низкоуровневого визуального восприятия в MLLMs и представляем бенчмарк Geoperception как первый шаг к улучшению этой области. Наша работа показывает, что использование синтетических данных и многоуровневое обучение с учебным планом могут значительно повысить производительность моделей в геометрических задачах.

Направления для будущих исследований

В будущем мы планируем исследовать несколько направлений:

  1. Автоматическое обучение учебному плану: Разработка автоматизированных стратегий для упрощения процесса организации учебного плана.
  2. Использование более разнообразных обучающих наборов данных: Увеличение разнообразия синтетических данных для улучшения обобщающих способностей моделей.
  3. Обобщение на другие области задач: Применение полученных знаний к более широкому спектру задач, требующих низкоуровневого визуального восприятия.

Наша работа открывает новые горизонты для улучшения MLLMs и их применения в реальных задачах, требующих точного визуального восприятия.