Свежая выжимка ml и AI статей - каждый день
В последние годы визуально-языковые модели (VLM) достигли значительных успехов в области обработки и интеграции визуальной и текстовой информации. Эти достижения открыли новые возможности для сложных взаимодействий между зрительными и языковыми данными, что находит применение в таких областях, как робототехника, автономное вождение и медицинская визуализация. Однако, несмотря на высокую точность, эффективность этих моделей остается недостаточно исследованной. В статье представлена NVILA — новая семья открытых VLM, разработанных для оптимизации как эффективности, так и точности.
Тренировка VLM требует значительных вычислительных ресурсов и времени. Например, тренировка модели с 7 миллиардами параметров может занять до 400 GPU-дней. Это создает серьезные барьеры для исследователей, особенно для тех, кто работает с ограниченными ресурсами. Кроме того, адаптация VLM к специализированным доменам, таким как медицинская визуализация, требует больших объемов памяти. Полная настройка таких моделей может потребовать более 64 ГБ GPU-памяти, что превышает возможности большинства потребительских графических процессоров.
NVILA предлагает систематический подход к повышению эффективности VLM на всех этапах их жизненного цикла, начиная с тренировки и заканчивая развертыванием. Основная идея NVILA заключается в применении стратегии "масштабирования, а затем сжатия" для оптимизации архитектуры модели. Этот подход включает в себя:
Масштабирование пространственных и временных разрешений: Увеличение разрешения изображений и видео позволяет сохранить больше деталей визуальных входных данных, что, в свою очередь, повышает точность модели.
Сжатие визуальных токенов: После увеличения разрешения происходит сжатие визуальных токенов, что приводит к улучшению вычислительной эффективности. Сжатые токены имеют более высокую плотность информации, что позволяет сохранить важные детали при уменьшении общего количества токенов.
С помощью этой стратегии NVILA может эффективно обрабатывать высококачественные изображения и длинные видео, сокращая затраты на обучение в 4.5 раз, использование памяти при тонкой настройке — в 3.4 раза, а задержку при декодировании — в 1.2–2.8 раз.
NVILA построена на основе архитектуры VILA и состоит из трех основных компонентов:
Для пространственного масштабирования NVILA увеличивает разрешение изображений, например, до 896×896 пикселей. Однако применение одинакового высокого разрешения для всех изображений может быть неэффективным. Поэтому используется метод S2, который позволяет эффективно извлекать многоуровневые высокоразрешающие признаки с помощью разбиения изображений на тайлы. Это позволяет обрабатывать изображения с различными аспектными соотношениями без значительных искажений.
Для временного масштабирования NVILA увеличивает количество равномерно отобранных кадров из видео. Обучение модели с использованием дополнительной видео-обученной тонкой настройки позволяет модели обрабатывать больше кадров, что улучшает точность на видео-бенчмарках.
Обучение VLM, как правило, является дорогостоящим и ресурсоемким процессом. NVILA использует несколько стратегий для повышения эффективности тренировки:
Принцип "Сжатие данных": Упрощение тренировочных данных с помощью метода DeltaLoss, который позволяет отбирать качественные примеры из множества источников, что снижает избыточность данных.
Использование смешанной точности FP8: Это позволяет ускорить тренировку NVILA, сохраняя при этом точность модели.
Тонкая настройка VLM необходима для адаптации модели к специфическим задачам. NVILA предлагает новые подходы к тонкой настройке, включая:
Различные скорости обучения: Установление различных скоростей обучения для визуального энкодера и языковой модели, что позволяет более эффективно настраивать модель.
Выбор частей для тонкой настройки: Определение, какие части модели следует настраивать в зависимости от конкретных задач.
NVILA также разрабатывает специализированный движок для вывода, который использует методы квантования для ускорения развертывания. Процесс вывода делится на два этапа: предварительное заполнение и декодирование. На этапе предварительного заполнения применяются техники сжатия токенов, что снижает вычислительную нагрузку.
NVILA демонстрирует конкурентоспособные результаты на различных бенчмарках для изображений и видео, при этом значительно улучшая эффективность по сравнению с предыдущими моделями. Например, NVILA-8B достигает новых рекордов точности на всех тестах, включая видео-бенчмарки, и обеспечивает высокую производительность с меньшим количеством параметров по сравнению с другими моделями.
Кроме того, NVILA открывает новые возможности для применения, включая времальную локализацию, навигацию для роботов и медицинскую визуализацию, что подчеркивает его универсальность и потенциал для дальнейших исследований.
NVILA представляет собой значительный шаг вперед в разработке эффективных визуально-языковых моделей. С применением стратегии "масштабирования, а затем сжатия" и системного подхода к повышению эффективности на всех этапах жизненного цикла, NVILA достигает высокой точности при меньших затратах на ресурсы. Это делает ее ценным инструментом для исследователей и разработчиков, стремящихся реализовать потенциал VLM в различных областях.