Свежая выжимка ml и AI статей - каждый день
Современные системы компьютерного зрения обычно назначают изображениям фиксированные представления, независимо от их содержания. Это контрастирует с человеческим интеллектом и даже с крупными языковыми моделями (LLM), которые могут выделять различное количество ресурсов для представления в зависимости от энтропии, контекста и знакомства с данными. Вдохновленные этим, мы предлагаем подход к обучению переменной длины токенизации для 2D изображений. Наша архитектура кодер-декодер рекурсивно обрабатывает 2D токены изображения, перегоняя их в 1D латентные токены в течение нескольких итераций рекуррентного процесса. Каждый цикл уточняет 2D токены, обновляет существующие 1D латентные токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256.
Представление и сжатие данных является ключевым аспектом машинного обучения, особенно в области компьютерного зрения. Эффективное представление должно быть компактным, но при этом сохранять всю релевантную информацию. В зависимости от задачи, требования к представлению могут сильно различаться. Например, для задачи грубой классификации может потребоваться меньше информации, чем для задачи, требующей точного восстановления изображения на уровне пикселей.
Человеческий интеллект известен своей способностью адаптировать представления в зависимости от контекста и сложности задачи. Аналогично, LLM могут генерировать описания на различных уровнях абстракции, в зависимости от сложности, контекста и знакомства с содержанием. В отличие от этого, большинство текущих визуальных систем, таких как VAE, VQGAN и ViT, генерируют представления фиксированного размера для всех изображений, что ограничивает их гибкость и эффективность.
В нашем подходе мы стремимся к обучению адаптивных и переменных по длине визуальных представлений, подчеркивая, что каждое изображение требует уникального представления в зависимости от его сложности. Общий фреймворк для обучения встраивания изображений или представлений — это подход кодер-декодер, где кодер сжимает входные данные в компактное латентное представление, которое затем может быть декодировано и сравнено с оригинальным изображением в качестве обучающей цели.
Наша архитектура использует рекуррентную обработку токенов, что позволяет динамически адаптировать представительную емкость изображения. В каждой итерации обрабатываются 2D токены изображения, обновляются существующие 1D латентные токены, и добавляются новые токены, если это необходимо. Это обеспечивает:
Мы проверили наш токенизатор, используя метрики потерь восстановления и FID (Fréchet Inception Distance). Результаты показывают, что количество токенов коррелирует с энтропией изображения, знакомством и требованиями к выполнению задач. Рекуррентная обработка токенов с увеличением представительной емкости в каждой итерации демонстрирует признаки специализации токенов, что открывает возможности для обнаружения объектов и частей.
Наш подход к адаптивной длине токенизации изображений через рекуррентное выделение ресурсов представляет собой значительный шаг вперед в области компьютерного зрения. Он позволяет системам более эффективно обрабатывать изображения, адаптируясь к их содержанию и сложности, что может привести к улучшению производительности в различных задачах, от классификации до генерации изображений. Код доступен по ссылке GitHub.
Этот метод не только улучшает качество представлений, но и открывает новые пути для исследований в области машинного обучения, предоставляя возможности для создания более интеллектуальных и адаптивных систем компьютерного зрения.