V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

С недавними достижениями в области Больших Языковых Моделей (LLMs) наблюдается растущий интерес к обработке мультимодальности, что предоставляет мощные основы для Моделей "визуальный-язык" (VLMs). Внедрение высокоэффективных LLM в VLM продемонстрировало значительные улучшения в различных визуальных задачах, требующих понимания текста, логического вывода и генерации. Однако большинство существующих мультимодальных моделей и наборов данных ориентированы на основные языки, такие как английский и китайский, оставляя низкоресурсные языки, такие как корейский, на обочине.

В этой статье мы представляем модель V,ARCO,-V,ISION, которая является открытым исходным решением для обработки корейского и английского языков в контексте визуальных задач. Модель демонстрирует выдающиеся результаты в различных сценариях, требующих билингвального понимания и генерации текста на изображениях. Мы также представляем пять корейских наборов данных для оценки, которые помогут исследователям в обучении VLM.

Архитектура модели

V,ARCO,-V,ISION,-14B состоит из трех основных компонентов: визуального энкодера, проектора и Большой Языковой Модели (LLM). Мы используем Qwen-2.5-14B-Instruct в качестве языковой основы и SigLIP в качестве визуального энкодера. Общая архитектура модели и метод обработки визуальных представлений следуют концепциям LLaVA-OneVision.

Специальные токены

В процессе обучения мы добавляем специальные токены в токенизатор для конкретных задач, таких как OCR, grounding и referring. Эти токены помогают модели эффективно обрабатывать различные виды задач:

<gro> для задач grounding
<ocr> для OCR задач
<char></char> для обозначения текстовой фразы
<obj></obj> для обозначения объекта
<bbox></bbox> для представления ограничивающей рамки
<delim> для представления нескольких точек расположения для одного объекта или текста

Стратегия обучения

Наша стратегия обучения состоит из четырех этапов, что позволяет модели постепенно осваивать и интегрировать визуальные и лингвистические способности:

Предобучение выравнивания признаков: Оптимизация случайно инициализированных слоев проекции MLP, сохраняя остальные компоненты замороженными. Эта стадия позволяет модели изучить соответствие между визуальным энкодером и LLM.
Базовое супервайзинг-файнтюнинг: Все слои модели обучаются на шести различных задачах, включая базовое следование инструкциям, OCR, grounding/referring и описание изображений.
Расширенное супервайзинг-файнтюнинг: Этот этап аналогичен предыдущему, но задачи требуют более сложных навыков логического вывода и следования инструкциям.
Оптимизация предпочтений: На финальном этапе мы сосредотачиваемся исключительно на обучении слоев LLM для улучшения согласованности и качества генерации ответов.

Оценка модели

Для оценки V,ARCO,-V,ISION мы разработали пять корейских мультимодальных наборов данных. Это первый случай, когда открытые корейские наборы данных используются для оценки общей способности понимания и генерации корейского языка. Мы перевели и адаптировали существующие английские наборы данных, такие как MMBench, SEED и MMStar, а также создали новый набор данных K-DTCBench, который оценивает способность модели обрабатывать документы, таблицы и графики.

Закрытые и открытые наборы данных

Закрытые наборы данных (K-MMBench, K-SEED, K-MMStar, K-DTCBench): Эти наборы данных состоят из задач множественного выбора, что позволяет объективно оценить способности VLM.
Открытые наборы данных (K-LLaVA-W): Этот набор основан на LLaVA-Bench-in-the-wild и включает автоматическую оценку с использованием LLM, чтобы измерить навыки генерации корейского языка модели.

Результаты и сравнение

Мы провели обширные эксперименты и сравнили результаты V,ARCO,-V,ISION с другими моделями. Результаты показывают, что наша модель превосходит другие модели аналогичного размера по всем корейским и английским наборам данных.

Корейские наборы данных

Модель V,ARCO,-V,ISION демонстрирует выдающиеся результаты в задачах множественного выбора и генерации, превосходя другие модели, такие как Pangea-7B и Pixtral-12B. Особенно заметны результаты в K-DTCBench, где V,ARCO,-V,ISION показывает доминирующее превосходство.

Английские наборы данных

На английских наборах данных V,ARCO,-V,ISION также продемонстрировала высокие результаты, особенно в задачах понимания и OCR, что подчеркивает ее универсальность и адаптивность к различным задачам.

Текстовые наборы данных

Мы также провели оценку на текстовых наборах данных, чтобы проверить, насколько хорошо модель справляется с текстовой информацией. V,ARCO,-V,ISION показала конкурентоспособные результаты по сравнению с другими языковыми моделями, что подтверждает эффективность нашей стратегии обучения.

Применения и будущее

Модель V,ARCO,-V,ISION имеет огромный потенциал для практического применения. Способности к grounding, referring и OCR открывают новые возможности для разработки приложений в различных областях, таких как:

Образование: Использование модели для создания интерактивных учебных материалов.
Медицинская визуализация: Применение для анализа медицинских изображений и генерации отчетов.
Клиентская поддержка: Автоматизация обработки запросов клиентов с использованием визуальной информации.

В будущем мы планируем расширить функциональность V,ARCO,-V,ISION, включая обработку мультимодальных данных, таких как видео и аудио, что позволит модели стать более универсальной и адаптивной к различным сценариям использования.

Заключение

Модель V,ARCO,-V,ISION,-14B представляет собой важный шаг вперед в области корейских моделей "визуальный-язык". Мы уверены, что ее открытый доступ и создание корейских наборов данных помогут расширить возможности для исследователей и разработчиков в области AI, обеспечивая более инклюзивный подход к мультимодальным задачам.

Статья на arxiv Оригинал pdf model language evaluation

Ай Дайджест