Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Современные мультимодальные языковые модели (MLMs) сталкиваются с серьезными проблемами в решении задач, связанных с восприятием изображений, где специализированные модели демонстрируют лучшие результаты. Задачи, требующие рассуждения о трехмерных структурах, выигрывают от оценки глубины, в то время как задачи, связанные с 2D-объектами, требуют обнаружения объектов. Однако MLMs не способны генерировать промежуточные представления, такие как карты глубины или ограничивающие рамки, что ограничивает их возможности в этих областях. Тонкая настройка MLMs на соответствующих данных не всегда обеспечивает хорошую обобщаемость, а использование специализированных инструментов визуального восприятия оказывается слишком ресурсоемким.

Для решения этих проблем была предложена концепция Perception Tokens — внутренних представлений изображений, предназначенных для поддержки задач рассуждения, где язык оказывается недостаточным. Эти токены действуют как вспомогательные токены рассуждения, аналогично цепочкам мыслей в языковых моделях, позволяя моделям эффективно решать задачи, связанные с оценкой глубины и обнаружением объектов.

Perception Tokens и их роль

Perception Tokens представляют собой промежуточные представления, которые помогают моделям MLM преодолевать ограничения, связанные с традиционными текстовыми токенами. Например, в задаче, связанной с глубиной, MLM, дополненный Perception Tokens, может генерировать карту глубины в виде токенов, что позволяет ему эффективно решать поставленную задачу. Эта концепция открывает новые горизонты для MLMs, позволяя им использовать визуальные данные для рассуждения.

Вызовы и решения

Основные проблемы, связанные с интеграцией Perception Tokens, заключаются в необходимости создания дополнительных токенов для представления низко- и среднеуровневых визуальных характеристик, таких как карты глубины и ограничивающие рамки. Для решения этой проблемы разработан метод обучения AURORA, который использует VQVAE для преобразования промежуточных изображений, таких как карты глубины, в токенизированный формат.

AURORA достигает значительных улучшений в различных задачах, таких как оценка глубины и подсчет объектов, превосходя традиционные методы тонкой настройки. Например, на наборе данных BLINK была зафиксирована улучшение на 10.8% по сравнению с базовыми моделями.

Связанные работы

MLMs стремятся решать широкий спектр задач, таких как визуальный вопрос-ответ и создание подписей, используя как визуальные, так и текстовые входные данные. Современные архитектуры MLMs обычно полагаются на кросс-внимание или визуальную настройку, чтобы интегрировать мультимодальную информацию. Однако большинство MLMs все еще испытывают трудности с выполнением задач, требующих более низкого уровня визуального восприятия.

Существующие подходы к интеграции визуальных данных в MLMs можно разделить на две категории: модели с единой архитектурой и модели, использующие специализированные инструменты. Модели с единой архитектурой могут быть многократно использованы для различных задач без необходимости в архитектурных изменениях. Однако они требуют больших объемов данных для обучения и могут не всегда обеспечивать хорошую обобщаемость.

С другой стороны, модели, использующие специализированные инструменты, могут выполнять визуальные задачи, прикрепляя к ним специализированные модули. Однако такие подходы чувствительны к ошибкам и могут быть менее эффективными в плане вычислительных ресурсов.

AURORA: новый метод обучения с Perception Tokens

Формулировка проблемы

В рамках AURORA, процесс рассуждения в MLMs формулируется как многошаговый инференциальный процесс, в котором модель итеративно генерирует промежуточные шаги рассуждения для достижения окончательного ответа. Важным аспектом является расширение словаря модели, чтобы включить вспомогательные токены, которые могут представлять более сложные визуальные данные.

Генерация и использование Perception Tokens

Генерация Perception Tokens осуществляется с использованием подхода дистилляции, который позволяет модели эффективно предсказывать токены из нового вспомогательного словаря. Это достигается путем использования предобученных специализированных моделей, которые помогают в создании токенов, соответствующих низко- и среднеуровневым визуальным характеристикам.

В процессе рассуждения модель начинает с предсказания начального шага на основе входных данных и затем переходит к многошаговому рассуждению, используя вспомогательные токены для поддержки цепочек вывода. Это позволяет модели более точно интерпретировать визуальные данные и повышает ее способность к рассуждению.

Токенизация

Создание единого пространства токенов является критически важным для мультимодальных моделей, так как это создает согласованную структуру для представления и обработки различных визуальных задач. В рамках AURORA реализованы две схемы токенизации: для пиксельных представлений и структурированных представлений. Первая схема захватывает детальную пространственную информацию, в то время как вторая кодирует структурированные визуальные характеристики, такие как позы человека и ограничивающие рамки.

Эксперименты и результаты

AURORA была протестирована на различных задачах, включая оценку глубины и подсчет объектов. Результаты показывают, что использование Perception Tokens значительно улучшает точность и интерпретируемость моделей, что подтверждается высокими показателями на соответствующих наборах данных.

Задачи 3D и 2D

В задаче оценки глубины AURORA использует токены карт глубины для захвата пространственной информации, что позволяет модели определять, какие точки ближе к камере. В задаче подсчета объектов модель сначала идентифицирует и предсказывает ограничивающие рамки для каждого экземпляра целевого объекта, что улучшает ее способность точно подсчитывать количество объектов.

Заключение

Предложенный алгоритм позволяет эффективно интегрировать Perception Tokens в мультимодальные языковые модели, что открывает новые возможности для визуального рассуждения. Метод AURORA достигает состояния наилучших результатов в задачах, требующих оценки глубины и подсчета объектов, что позволяет моделям лучше обобщать и интерпретировать визуальные данные без необходимости в специализированных инструментах.

Таким образом, использование Perception Tokens значительно расширяет возможности MLMs, позволяя им решать более сложные задачи визуального восприятия и рассуждения. Это открывает путь к более эффективным мультимодальным системам, которые могут адаптироваться к новым вызовам и требованиям в области искусственного интеллекта.

Статья на arxiv Оригинал pdf multimodal perception generalization

Ай Дайджест