V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"
В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.