NVILA: Эффективные визуально-языковые модели
Визуальные языковые модели (VLM) добились значительного прогресса в точности в последние годы. Однако их эффективность получила гораздо меньше внимания. Эта статья представляет NVILA, семью открытых VLM, разработанных для оптимизации как эффективности, так и точности. Строя на основе VILA, мы улучшаем архитектуру модели, сначала увеличивая пространственные и временные разрешения, а затем сжимая визуальные токены. Этот подход «масштабировать затем сжимать» позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое расследование, чтобы повысить эффективность NVILA на протяжении всего его жизненного цикла, от обучения и тонкой настройки до развертывания. NVILA соответствует или превосходит точность многих ведущих открытых и проприетарных VLM на широком диапазоне контрольных тестов изображений и видео. В то же время он снижает затраты на обучение в 4.5 раза, использование памяти на тонкой настройке в 3.4 раза, задержку предварительного заполнения в 1.6-2.2 раза и задержку декодирования в 1.2-2.8 раза. Мы скоро сделаем наш код и модели доступными, чтобы облегчить воспроизводимость.