Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Анализ языка визуальных токенов

С появлением трансформерных моделей для задач, связанных с обработкой визуальных и текстовых данных, таких как LLaVA и Chameleon, возникло новое направление в исследованиях — дискретное токенизированное представление изображений. Эти модели часто рассматривают патчи изображений как дискретные токены, аналогичные словам в естественном языке, обучая совместные выравнивания между визуальными и человеческими языками. Однако, несмотря на успехи в этой области, мало известно о статистическом поведении этих визуальных языков: следуют ли они схожим распределениям частот, грамматическим структурам или топологиям, как естественные языки.

В данной статье мы подходим к анализу дискретных визуальных языков с точки зрения естественного языка, выявляя поразительные сходства и фундаментальные различия. Мы демонстрируем, что хотя визуальные языки следуют закону Ципфа, они характеризуются большей энтропией и меньшей сжимаемостью, а токены преимущественно представляют части объектов, указывая на промежуточную гранулярность. Мы также показываем, что визуальные языки не обладают когезивными грамматическими структурами, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. Наконец, мы демонстрируем, что, несмотря на то что модели зрения лучше выравниваются с естественным языком, чем другие модели, это выравнивание остается значительно слабее, чем сплоченность внутри естественных языков.

Через эти эксперименты мы показываем, как понимание статистических свойств дискретных визуальных языков может информировать о дизайне более эффективных моделей компьютерного зрения.

1. Введение

Трансформерные модели не просто улучшили, но и фундаментально изменили подходы к обработке как зрительной, так и языковой информации, объединив эти области в общих последовательных представлениях. Действительно, большинство современных мультимодальных моделей, включая DALL-E (Ramesh et al., 2022), LLaVA (Liu et al., 2024) и Chameleon (Team, 2024), работают с совместными токенизированными представлениями изображений и языка, где модели разбивают изображения на "визуальные языки": линеаризованные дискретные патчи или токены, аналогичные словам в предложении. Этот процесс, показанный на рисунке 1, позволяет бесшовно интегрировать изображения в архитектуры трансформеров и позволяет моделям решать мультимодальные задачи, от генерации изображений и создания описаний до визуального ответного вопроса и перевода.

Несмотря на успех таких моделей с общей структурой, в текущих исследованиях отсутствует глубокое понимание того, отражает ли внутренняя структура визуальных токенов принципы, управляющие естественными языками. В частности, возникает вопрос: следуют ли языки, сформированные из визуальных токенов, тем же статистическим моделям, таким как распределения частот, грамматические правила или семантические зависимости, что и человеческие языки? Исследование такого статистического поведения дискретных визуальных токенов выходит за рамки теоретического любопытства; оно имеет широкие последствия для практических приложений машинного обучения.

В то время как в лингвистической теории явления, такие как закон Ципфа и энтропия, формируют структуру естественных языков и влияют на дизайн алгоритмов машинного обучения, для визуальных языков таких правил не существует. Если бы такие правила существовали, они могли бы мотивировать создание моделей и процедур, специфичных для модальности, чтобы захватить уникальные статистические свойства лежащих в основе визуальных данных.

В погоне за такими правилами в этой статье мы исследуем эквивалентность визуальных и естественных языков через эмпирический анализ распределений токенов, гранулярности сегментации и синтаксических и семантических структур. Мы начинаем с изучения статистики частот визуальных слов и сравниваем их с естественными языками. Наш анализ показывает, что хотя визуальные языки могут следовать степенным законам (закон Ципфа), они используют больше токенов более равномерно. Это приводит к языкам с большей энтропией на токен и меньшими коэффициентами сжатия, что подразумевает, что модели зрения могут требовать больше внимания, больших вложений и более длительного обучения с более разнообразными данными по сравнению с моделями естественного языка.

Заметив в этих экспериментах, что визуальные языки имеют более крупную гранулярность, чем патчи, мы демонстрируем через анализ корреляции, что визуальные токены работают на промежуточном уровне гранулярности и обычно представляют части объектов, а не целые объекты или подчасти в изображениях. Соответственно, мы показываем, что визуальные токены менее эффективны в представлении деталей или структур целых объектов. Следуя этой логике, мы исследуем, имеют ли токены композитную структуру, и с помощью синтаксических деревьев, сгенерированных с использованием Compound Probabilistic Context-Free Grammars (C-PCFG), показываем, что визуальные языки обладают фрагментированными грамматическими структурами, что приводит к более высокой перплексии по сравнению с естественными языками. Мы подтверждаем эти наблюдения, строя пространство вложений на основе совместных вхождений и оценивая топологическое выравнивание между естественными и визуальными языками. В этом мы обнаруживаем, что визуальные языки выравниваются с естественными языками лучше, чем с другими визуальными языками, но все же не так сильно, как естественные языки выравниваются друг с другом.

Вместе эти эксперименты демонстрируют, что хотя визуальные языки имеют поразительные сходства с естественными языками, существуют также заметные и фундаментальные различия, мотивирующие уникальные подходы к обучению зрения-языка, специфичные для модальности.