NVILA: Эффективные визуально-языковые модели

В последние годы визуально-языковые модели (VLM) достигли значительных успехов в области обработки и интеграции визуальной и текстовой информации. Эти достижения открыли новые возможности для сложных взаимодействий между зрительными и языковыми данными, что находит применение в таких областях, как робототехника, автономное вождение и медицинская визуализация. Однако, несмотря на высокую точность, эффективность этих моделей остается недостаточно исследованной. В статье представлена NVILA — новая семья открытых VLM, разработанных для оптимизации как эффективности, так и точности.

Проблемы существующих VLM

Тренировка VLM требует значительных вычислительных ресурсов и времени. Например, тренировка модели с 7 миллиардами параметров может занять до 400 GPU-дней. Это создает серьезные барьеры для исследователей, особенно для тех, кто работает с ограниченными ресурсами. Кроме того, адаптация VLM к специализированным доменам, таким как медицинская визуализация, требует больших объемов памяти. Полная настройка таких моделей может потребовать более 64 ГБ GPU-памяти, что превышает возможности большинства потребительских графических процессоров.

NVILA: Подход к решению проблем

NVILA предлагает систематический подход к повышению эффективности VLM на всех этапах их жизненного цикла, начиная с тренировки и заканчивая развертыванием. Основная идея NVILA заключается в применении стратегии "масштабирования, а затем сжатия" для оптимизации архитектуры модели. Этот подход включает в себя:

Масштабирование пространственных и временных разрешений: Увеличение разрешения изображений и видео позволяет сохранить больше деталей визуальных входных данных, что, в свою очередь, повышает точность модели.
Сжатие визуальных токенов: После увеличения разрешения происходит сжатие визуальных токенов, что приводит к улучшению вычислительной эффективности. Сжатые токены имеют более высокую плотность информации, что позволяет сохранить важные детали при уменьшении общего количества токенов.

С помощью этой стратегии NVILA может эффективно обрабатывать высококачественные изображения и длинные видео, сокращая затраты на обучение в 4.5 раз, использование памяти при тонкой настройке — в 3.4 раза, а задержку при декодировании — в 1.2–2.8 раз.

Архитектура NVILA

NVILA построена на основе архитектуры VILA и состоит из трех основных компонентов:

Визуальный энкодер: Извлекает признаки из визуальных входных данных (изображений и видео).
Проектор: Выравнивает встраивания между визуальными и языковыми модальностями.
Процессор токенов: Обычно реализуется с помощью LLM, который принимает на вход как визуальные, так и языковые токены и выдает языковые токены на выходе.

Масштабирование пространственных разрешений

Для пространственного масштабирования NVILA увеличивает разрешение изображений, например, до 896×896 пикселей. Однако применение одинакового высокого разрешения для всех изображений может быть неэффективным. Поэтому используется метод S2, который позволяет эффективно извлекать многоуровневые высокоразрешающие признаки с помощью разбиения изображений на тайлы. Это позволяет обрабатывать изображения с различными аспектными соотношениями без значительных искажений.

Масштабирование временных разрешений

Для временного масштабирования NVILA увеличивает количество равномерно отобранных кадров из видео. Обучение модели с использованием дополнительной видео-обученной тонкой настройки позволяет модели обрабатывать больше кадров, что улучшает точность на видео-бенчмарках.

Эффективность тренировки

Обучение VLM, как правило, является дорогостоящим и ресурсоемким процессом. NVILA использует несколько стратегий для повышения эффективности тренировки:

Принцип "Сжатие данных": Упрощение тренировочных данных с помощью метода DeltaLoss, который позволяет отбирать качественные примеры из множества источников, что снижает избыточность данных.
Использование смешанной точности FP8: Это позволяет ускорить тренировку NVILA, сохраняя при этом точность модели.

Эффективная тонкая настройка

Тонкая настройка VLM необходима для адаптации модели к специфическим задачам. NVILA предлагает новые подходы к тонкой настройке, включая:

Различные скорости обучения: Установление различных скоростей обучения для визуального энкодера и языковой модели, что позволяет более эффективно настраивать модель.
Выбор частей для тонкой настройки: Определение, какие части модели следует настраивать в зависимости от конкретных задач.

Эффективное развертывание

NVILA также разрабатывает специализированный движок для вывода, который использует методы квантования для ускорения развертывания. Процесс вывода делится на два этапа: предварительное заполнение и декодирование. На этапе предварительного заполнения применяются техники сжатия токенов, что снижает вычислительную нагрузку.

Результаты и достижения

NVILA демонстрирует конкурентоспособные результаты на различных бенчмарках для изображений и видео, при этом значительно улучшая эффективность по сравнению с предыдущими моделями. Например, NVILA-8B достигает новых рекордов точности на всех тестах, включая видео-бенчмарки, и обеспечивает высокую производительность с меньшим количеством параметров по сравнению с другими моделями.

Кроме того, NVILA открывает новые возможности для применения, включая времальную локализацию, навигацию для роботов и медицинскую визуализацию, что подчеркивает его универсальность и потенциал для дальнейших исследований.

Заключение

NVILA представляет собой значительный шаг вперед в разработке эффективных визуально-языковых моделей. С применением стратегии "масштабирования, а затем сжатия" и системного подхода к повышению эффективности на всех этапах жизненного цикла, NVILA достигает высокой точности при меньших затратах на ресурсы. Это делает ее ценным инструментом для исследователей и разработчиков, стремящихся реализовать потенциал VLM в различных областях.

Статья на arxiv Оригинал pdf fine-tuning deployment compression

Ай Дайджест