Свежая выжимка ml и AI статей - каждый день
В последние годы визуальные языковые модели (VLM) продемонстрировали впечатляющие способности в различных задачах визуального понимания и рассуждений. Однако, их внедрение в реальные приложения часто ограничивается высокой задержкой при инференсе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов, преимущественно из изображений, LLM (Large Language Model). В этом контексте возникает вопрос: как можно оптимизировать инференцию, чтобы снизить затраты и сохранить высокую производительность?
Инференция в VLM определяется двумя ключевыми факторами: количеством визуальных токенов и параметрами LLM. Визуальные токены представляют собой патчи изображения, которые кодируются и передаются в LLM для обработки вместе с текстовым запросом. Традиционно, количество визуальных токенов может быть довольно большим, что увеличивает вычислительные затраты на инференцию. Например, модель CLIP может генерировать до 576 токенов для одного изображения.
Стоимость инференции в VLM можно оценить по следующей формуле:
[ \text{FLOPs}_\text{inf} = O(N \times T) ]
где (N) — количество параметров LLM, а (T) — общее количество токенов, обрабатываемых за время инференции. Это включает в себя токены текста (Q), визуальные токены (V) и генерируемые токены (G). В реальных приложениях, где текстовый запрос может быть закеширован, Q может быть равен 0, что упрощает вычисления.
Сжатие токенов стало активной областью исследований для уменьшения инференционных затрат. Существует несколько подходов:
Однако, большинство этих методов фокусируются на умеренном сжатии токенов, стремясь сохранить производительность базовой модели. Наш анализ показывает, что для оптимальной инференции требуется гораздо более высокий уровень сжатия.
Мы разработали законы масштабирования, которые моделируют производительность VLM как функцию от количества параметров LLM и числа визуальных токенов:
[ Y(N, T) = A N^\alpha \times B T^\beta + D ]
где (Y) — мера качества модели, (A, B, D, \alpha, \beta) — обучаемые параметры. Наши результаты показывают:
Для визуальных задач рассуждения оптимальный режим инференции достигается при использовании самого большого возможного LLM, с минимальным количеством визуальных токенов, часто всего одним. Это означает, что для заданного бюджета инференции лучше увеличивать размер LLM, чем количество визуальных токенов.
Осознав важность высокого уровня сжатия токенов, мы предложили подход, основанный на запросе (Query-based Token Compression), который:
Этот метод показывает улучшение производительности на различных наборах данных, особенно при очень высоких уровнях сжатия (например, до 1 или 4 токенов).
Наша работа подчеркивает необходимость разработки методов сжатия токенов, ориентированных на экстремальные режимы сжатия, для достижения оптимальной производительности при инференции VLM. Мы показали, что для визуальных задач рассуждения использование одного визуального токена с максимально возможным LLM является оптимальным решением. Это открытие может изменить подход к разработке и оптимизации VLM, делая их более эффективными и доступными для реальных приложений.