Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens
Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.