Свежая выжимка ml и AI статей - каждый день
С недавними достижениями в области Больших Языковых Моделей (LLMs) наблюдается растущий интерес к обработке мультимодальности, что предоставляет мощные основы для Моделей "визуальный-язык" (VLMs). Внедрение высокоэффективных LLM в VLM продемонстрировало значительные улучшения в различных визуальных задачах, требующих понимания текста, логического вывода и генерации. Однако большинство существующих мультимодальных моделей и наборов данных ориентированы на основные языки, такие как английский и китайский, оставляя низкоресурсные языки, такие как корейский, на обочине.
В этой статье мы представляем модель V,ARCO,-V,ISION, которая является открытым исходным решением для обработки корейского и английского языков в контексте визуальных задач. Модель демонстрирует выдающиеся результаты в различных сценариях, требующих билингвального понимания и генерации текста на изображениях. Мы также представляем пять корейских наборов данных для оценки, которые помогут исследователям в обучении VLM.
V,ARCO,-V,ISION,-14B состоит из трех основных компонентов: визуального энкодера, проектора и Большой Языковой Модели (LLM). Мы используем Qwen-2.5-14B-Instruct в качестве языковой основы и SigLIP в качестве визуального энкодера. Общая архитектура модели и метод обработки визуальных представлений следуют концепциям LLaVA-OneVision.
В процессе обучения мы добавляем специальные токены в токенизатор для конкретных задач, таких как OCR, grounding и referring. Эти токены помогают модели эффективно обрабатывать различные виды задач:
<gro>
для задач grounding<ocr>
для OCR задач<char></char>
для обозначения текстовой фразы<obj></obj>
для обозначения объекта<bbox></bbox>
для представления ограничивающей рамки<delim>
для представления нескольких точек расположения для одного объекта или текстаНаша стратегия обучения состоит из четырех этапов, что позволяет модели постепенно осваивать и интегрировать визуальные и лингвистические способности:
Предобучение выравнивания признаков: Оптимизация случайно инициализированных слоев проекции MLP, сохраняя остальные компоненты замороженными. Эта стадия позволяет модели изучить соответствие между визуальным энкодером и LLM.
Базовое супервайзинг-файнтюнинг: Все слои модели обучаются на шести различных задачах, включая базовое следование инструкциям, OCR, grounding/referring и описание изображений.
Расширенное супервайзинг-файнтюнинг: Этот этап аналогичен предыдущему, но задачи требуют более сложных навыков логического вывода и следования инструкциям.
Оптимизация предпочтений: На финальном этапе мы сосредотачиваемся исключительно на обучении слоев LLM для улучшения согласованности и качества генерации ответов.
Для оценки V,ARCO,-V,ISION мы разработали пять корейских мультимодальных наборов данных. Это первый случай, когда открытые корейские наборы данных используются для оценки общей способности понимания и генерации корейского языка. Мы перевели и адаптировали существующие английские наборы данных, такие как MMBench, SEED и MMStar, а также создали новый набор данных K-DTCBench, который оценивает способность модели обрабатывать документы, таблицы и графики.
Закрытые наборы данных (K-MMBench, K-SEED, K-MMStar, K-DTCBench): Эти наборы данных состоят из задач множественного выбора, что позволяет объективно оценить способности VLM.
Открытые наборы данных (K-LLaVA-W): Этот набор основан на LLaVA-Bench-in-the-wild и включает автоматическую оценку с использованием LLM, чтобы измерить навыки генерации корейского языка модели.
Мы провели обширные эксперименты и сравнили результаты V,ARCO,-V,ISION с другими моделями. Результаты показывают, что наша модель превосходит другие модели аналогичного размера по всем корейским и английским наборам данных.
Модель V,ARCO,-V,ISION демонстрирует выдающиеся результаты в задачах множественного выбора и генерации, превосходя другие модели, такие как Pangea-7B и Pixtral-12B. Особенно заметны результаты в K-DTCBench, где V,ARCO,-V,ISION показывает доминирующее превосходство.
На английских наборах данных V,ARCO,-V,ISION также продемонстрировала высокие результаты, особенно в задачах понимания и OCR, что подчеркивает ее универсальность и адаптивность к различным задачам.
Мы также провели оценку на текстовых наборах данных, чтобы проверить, насколько хорошо модель справляется с текстовой информацией. V,ARCO,-V,ISION показала конкурентоспособные результаты по сравнению с другими языковыми моделями, что подтверждает эффективность нашей стратегии обучения.
Модель V,ARCO,-V,ISION имеет огромный потенциал для практического применения. Способности к grounding, referring и OCR открывают новые возможности для разработки приложений в различных областях, таких как:
В будущем мы планируем расширить функциональность V,ARCO,-V,ISION, включая обработку мультимодальных данных, таких как видео и аудио, что позволит модели стать более универсальной и адаптивной к различным сценариям использования.
Модель V,ARCO,-V,ISION,-14B представляет собой важный шаг вперед в области корейских моделей "визуальный-язык". Мы уверены, что ее открытый доступ и создание корейских наборов данных помогут расширить возможности для исследователей и разработчиков в области AI, обеспечивая более инклюзивный подход к мультимодальным задачам.