Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "upgrade"

PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является обновлением открытой модели языка и зрения (VLM) PaliGemma, основанной на семействе языковых моделей Gemma 2. Мы комбинируем визуальный кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы обеспечить их широкими знаниями для передачи через дообучение. В результате получается семья базовых моделей, охватывающая разные размеры моделей и разрешения, что позволяет нам исследовать факторы, влияющие на эффективность передачи (такие как скорость обучения), и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и разнообразие задач передачи за пределами PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблицы, распознавание молекулярной структуры, распознавание музыкальных партитур, а также длительное детализированное аннотирование и генерацию рентгеновских отчетов, по которым PaliGemma 2 достигает результатов на уровне передовых технологий.