PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является улучшенной версией модели компьютерного зрения и языка (VLM), основанной на семействе языковых моделей Gemma 2. Эта модель была разработана для выполнения задач переноса, сочетая в себе мощный визуальный энкодер SigLIP и различные языковые модели. В данной статье мы рассмотрим ключевые аспекты PaliGemma 2, включая архитектуру, процесс обучения, а также результаты на различных задачах.

Архитектура PaliGemma 2

PaliGemma 2 представляет собой семью базовых моделей, которые варьируются по размеру и разрешению. Модели доступны в трех размерах: 3B, 10B и 28B параметров, а также в трех разрешениях: 224px², 448px² и 896px². Это позволяет исследовать влияние различных факторов, таких как скорость обучения и размер модели, на производительность при переноса.

Визуальный энкодер

Визуальный энкодер SigLIP-So400m, используемый в PaliGemma 2, обеспечивает преобразование изображений в векторные представления, которые затем комбинируются с текстовыми токенами. Это позволяет модели обрабатывать визуальную и текстовую информацию одновременно, что является ключевым для выполнения задач, связанных с пониманием изображений и текста.

Языковая модель

Языковая модель Gemma 2, используемая в PaliGemma 2, значительно улучшает способности модели по сравнению с предыдущими версиями. Она была обучена на большом объеме данных и обладает улучшенной способностью к генерации текста, что позволяет модели более точно отвечать на вопросы и генерировать описания.

Процесс обучения

PaliGemma 2 обучается в три этапа, аналогично PaliGemma.

Первый этап включает в себя предварительное обучение визуального энкодера и языковой модели на одном миллиардном примеров, чтобы обеспечить широкие возможности для переноса.
Второй этап включает в себя обучение на более высоких разрешениях (448px² и 896px²) с увеличением веса задач, которые требуют более высокого разрешения.
Третий этап – это тонкая настройка моделей для конкретных задач, что позволяет улучшить производительность на различных тестах.

Задачи переноса

PaliGemma 2 демонстрирует отличные результаты на более чем 30 задачах переноса, включая:

Общие задачи аннотации изображений: создание описаний для изображений.
Визуальный вопрос-ответ (VQA): ответы на вопросы, основанные на изображениях.
Оптическое распознавание текста (OCR): распознавание и локализация текста в изображениях.
Распознавание структуры таблиц: извлечение текстового содержимого и структуры таблиц из изображений документов.
Распознавание молекулярной структуры: анализ изображений молекул и извлечение их графической структуры.

Результаты

PaliGemma 2 показывает лучшие результаты по сравнению с предшественниками, особенно на больших моделях и высоких разрешениях. Например, на задачах OCR и распознавания структуры таблиц модель достигла состояния наивысшего уровня в своей категории, что подтверждает ее универсальность и мощь.

Влияние размера модели и разрешения

Исследования показывают, что увеличение размера модели и разрешения изображения положительно сказывается на производительности. Однако для некоторых задач, таких как понимание текста и структуры документов, более высокое разрешение имеет большее значение, чем увеличение размера модели. Это связано с тем, что задачи, требующие высокой детализации визуальной информации, выигрывают от более качественных изображений.

Оптимальная скорость обучения

Также было установлено, что для больших моделей оптимальная скорость обучения ниже, чем для меньших. Это означает, что при увеличении размера модели необходимо более тщательно подбирать гиперпараметры, чтобы избежать переобучения.

Новые задачи и приложения

В дополнение к уже исследованным задачам, PaliGemma 2 расширяет свои возможности на новые области, такие как:

Генерация длинных аннотаций: создание детализированных описаний для изображений, что полезно для обучения моделей, генерирующих изображения на основе текста.
Медицинская визуализация: автоматическая генерация отчетов по рентгеновским снимкам, что может значительно ускорить процесс диагностики.

Заключение

PaliGemma 2 представляет собой значительный шаг вперед в области моделей компьютерного зрения и языка. Сочетание мощного визуального энкодера, улучшенной языковой модели и продуманного процесса обучения позволяет этой модели достигать выдающихся результатов на множестве задач. Благодаря своей универсальности и возможности адаптации к новым задачам, PaliGemma 2 может стать важным инструментом в различных областях, от медицины до научных исследований.

Эта модель открывает новые горизонты для исследований в области VLM и демонстрирует потенциал для дальнейших улучшений в будущем.

Статья на arxiv Оригинал pdf resolution training model

Ай Дайджест