FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

В последние годы в области машинного обучения наблюдается значительный прогресс в разработке визуально-языковых моделей (VLMs), которые объединяют возможности обработки естественного языка с компьютерным зрением. Эти модели позволяют выполнять сложные задачи, такие как визуальное восприятие, рассуждение и понимание, что делает их особенно полезными в различных приложениях, от автоматического описания изображений до ответов на визуальные вопросы. Однако, несмотря на их мощь, VLMs часто требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных условиях.

Одним из подходов к ускорению VLMs является метод раннего обрезания визуальных токенов в языковой модели, который позволяет значительно сократить время вычислений. Тем не менее, как показывает новое исследование, эффективность этого метода может быть переоценена. В данной статье мы рассмотрим результаты работы "FeathertheThrottle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration", в которой исследуется, как раннее обрезание визуальных токенов влияет на производительность моделей и предлагается новый подход, называемый FEATHER.

Проблема обрезания визуальных токенов

Метод раннего обрезания визуальных токенов, используемый в таких моделях, как FastV, предполагает удаление значительной части визуальной информации на ранних слоях языковой модели. Исследование показало, что, хотя этот метод может сохранять высокую производительность на многих задачах, он имеет серьезные недостатки, особенно в задачах, требующих точного локализации объектов. Основная проблема заключается в том, что обрезание часто приводит к удалению важных токенов, расположенных в верхней части изображения, что негативно сказывается на способности модели к визуальному пониманию.

Ограниченная способность оценки визуальных возможностей

Одной из ключевых находок исследования является то, что многие существующие бенчмарки не способны адекватно оценивать визуальные способности моделей. В частности, большинство задач, на которых тестируются VLMs, требуют минимального визуального обоснования, что скрывает недостатки в их способности обрабатывать сложные визуальные данные. Это открытие подчеркивает необходимость в более строгих методах оценки, которые могут выявить реальные возможности моделей в контексте визуального восприятия.

Новый подход: FEATHER

В ответ на выявленные недостатки, авторы исследования предлагают новый метод, названный FEATHER (F ast and E ffective A cceleration wi th E nsemble c R iteria). Этот метод решает проблемы, связанные с ранним обрезанием токенов, и включает в себя несколько ключевых компонентов:

Устранение проблемы с выбором токенов: FEATHER использует модифицированную версию критериев, которая позволяет избежать предвзятости в выборе токенов, ориентируясь на их позицию в изображении.
Униформенное выборка: Метод включает в себя равномерное выборку токенов, что обеспечивает хорошее покрытие всех областей изображения и позволяет сохранить важные детали.
Двухступенчатое обрезание: В отличие от раннего обрезания, FEATHER применяет обрезание в два этапа, что позволяет более эффективно использовать критерии на более поздних слоях модели.

Эффективность FEATHER

Сравнение производительности FEATHER с другими методами, такими как FastV и PyramidDrop, показало, что новый подход значительно улучшает результаты, особенно в задачах, связанных с локализацией. В частности, FEATHER продемонстрировал более чем 5-кратное улучшение производительности на бенчмарках, ориентированных на визуальную локализацию, при сопоставимых вычислительных затратах.

Эксперименты и результаты

В ходе экспериментов исследователи оценивали ускоренные VLMs на большом наборе бенчмарков, охватывающих различные задачи, такие как локализация, открытые визуальные вопросы и наборы задач. Результаты показали, что, хотя раннее обрезание токенов сохраняло высокую производительность на большинстве задач, оно значительно ухудшало результаты в задачах, требующих точной локализации.

Применение FEATHER

Метод FEATHER может быть применен в различных областях, где требуется высокая производительность VLMs, включая автоматическое описание изображений, визуальные вопросы и ответные системы. Его эффективность в сохранении важных визуальных данных делает его особенно подходящим для задач, требующих глубокого визуального понимания.

Заключение

Исследование "FeathertheThrottle" подчеркивает важность тщательной оценки и разработки методов ускорения VLMs. В то время как раннее обрезание визуальных токенов может быть полезным для снижения вычислительных затрат, оно также может привести к значительным потерям в производительности на критически важных задачах. Новый подход FEATHER предлагает более эффективное решение, которое может значительно улучшить производительность VLMs, сохраняя при этом вычислительную эффективность.

Таким образом, дальнейшие исследования в этой области могут привести к созданию более мощных и эффективных моделей, способных справляться с разнообразными задачами, требующими сложного визуального и языкового понимания.

Статья на arxiv Оригинал pdf pruning sampling benchmark

Ай Дайджест