Свежая выжимка ml и AI статей - каждый день
Современные мультимодальные языковые модели (MLMs) сталкиваются с серьезными проблемами в решении задач, связанных с восприятием изображений, где специализированные модели демонстрируют лучшие результаты. Задачи, требующие рассуждения о трехмерных структурах, выигрывают от оценки глубины, в то время как задачи, связанные с 2D-объектами, требуют обнаружения объектов. Однако MLMs не способны генерировать промежуточные представления, такие как карты глубины или ограничивающие рамки, что ограничивает их возможности в этих областях. Тонкая настройка MLMs на соответствующих данных не всегда обеспечивает хорошую обобщаемость, а использование специализированных инструментов визуального восприятия оказывается слишком ресурсоемким.
Для решения этих проблем была предложена концепция Perception Tokens — внутренних представлений изображений, предназначенных для поддержки задач рассуждения, где язык оказывается недостаточным. Эти токены действуют как вспомогательные токены рассуждения, аналогично цепочкам мыслей в языковых моделях, позволяя моделям эффективно решать задачи, связанные с оценкой глубины и обнаружением объектов.
Perception Tokens представляют собой промежуточные представления, которые помогают моделям MLM преодолевать ограничения, связанные с традиционными текстовыми токенами. Например, в задаче, связанной с глубиной, MLM, дополненный Perception Tokens, может генерировать карту глубины в виде токенов, что позволяет ему эффективно решать поставленную задачу. Эта концепция открывает новые горизонты для MLMs, позволяя им использовать визуальные данные для рассуждения.
Основные проблемы, связанные с интеграцией Perception Tokens, заключаются в необходимости создания дополнительных токенов для представления низко- и среднеуровневых визуальных характеристик, таких как карты глубины и ограничивающие рамки. Для решения этой проблемы разработан метод обучения AURORA, который использует VQVAE для преобразования промежуточных изображений, таких как карты глубины, в токенизированный формат.
AURORA достигает значительных улучшений в различных задачах, таких как оценка глубины и подсчет объектов, превосходя традиционные методы тонкой настройки. Например, на наборе данных BLINK была зафиксирована улучшение на 10.8% по сравнению с базовыми моделями.
MLMs стремятся решать широкий спектр задач, таких как визуальный вопрос-ответ и создание подписей, используя как визуальные, так и текстовые входные данные. Современные архитектуры MLMs обычно полагаются на кросс-внимание или визуальную настройку, чтобы интегрировать мультимодальную информацию. Однако большинство MLMs все еще испытывают трудности с выполнением задач, требующих более низкого уровня визуального восприятия.
Существующие подходы к интеграции визуальных данных в MLMs можно разделить на две категории: модели с единой архитектурой и модели, использующие специализированные инструменты. Модели с единой архитектурой могут быть многократно использованы для различных задач без необходимости в архитектурных изменениях. Однако они требуют больших объемов данных для обучения и могут не всегда обеспечивать хорошую обобщаемость.
С другой стороны, модели, использующие специализированные инструменты, могут выполнять визуальные задачи, прикрепляя к ним специализированные модули. Однако такие подходы чувствительны к ошибкам и могут быть менее эффективными в плане вычислительных ресурсов.
В рамках AURORA, процесс рассуждения в MLMs формулируется как многошаговый инференциальный процесс, в котором модель итеративно генерирует промежуточные шаги рассуждения для достижения окончательного ответа. Важным аспектом является расширение словаря модели, чтобы включить вспомогательные токены, которые могут представлять более сложные визуальные данные.
Генерация Perception Tokens осуществляется с использованием подхода дистилляции, который позволяет модели эффективно предсказывать токены из нового вспомогательного словаря. Это достигается путем использования предобученных специализированных моделей, которые помогают в создании токенов, соответствующих низко- и среднеуровневым визуальным характеристикам.
В процессе рассуждения модель начинает с предсказания начального шага на основе входных данных и затем переходит к многошаговому рассуждению, используя вспомогательные токены для поддержки цепочек вывода. Это позволяет модели более точно интерпретировать визуальные данные и повышает ее способность к рассуждению.
Создание единого пространства токенов является критически важным для мультимодальных моделей, так как это создает согласованную структуру для представления и обработки различных визуальных задач. В рамках AURORA реализованы две схемы токенизации: для пиксельных представлений и структурированных представлений. Первая схема захватывает детальную пространственную информацию, в то время как вторая кодирует структурированные визуальные характеристики, такие как позы человека и ограничивающие рамки.
AURORA была протестирована на различных задачах, включая оценку глубины и подсчет объектов. Результаты показывают, что использование Perception Tokens значительно улучшает точность и интерпретируемость моделей, что подтверждается высокими показателями на соответствующих наборах данных.
В задаче оценки глубины AURORA использует токены карт глубины для захвата пространственной информации, что позволяет модели определять, какие точки ближе к камере. В задаче подсчета объектов модель сначала идентифицирует и предсказывает ограничивающие рамки для каждого экземпляра целевого объекта, что улучшает ее способность точно подсчитывать количество объектов.
Предложенный алгоритм позволяет эффективно интегрировать Perception Tokens в мультимодальные языковые модели, что открывает новые возможности для визуального рассуждения. Метод AURORA достигает состояния наилучших результатов в задачах, требующих оценки глубины и подсчета объектов, что позволяет моделям лучше обобщать и интерпретировать визуальные данные без необходимости в специализированных инструментах.
Таким образом, использование Perception Tokens значительно расширяет возможности MLMs, позволяя им решать более сложные задачи визуального восприятия и рассуждения. Это открывает путь к более эффективным мультимодальным системам, которые могут адаптироваться к новым вызовам и требованиям в области искусственного интеллекта.