AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

В мире машинного обучения и компьютерного зрения пре-тренировка моделей стала ключевым элементом для достижения высокой производительности на множестве задач. В этой статье мы исследуем новаторский метод, известный как AIM V 2, который предлагает новый подход к пре-тренировке крупных видеоэнкодеров, интегрируя мультимодальные данные – изображения и текст – в единую автопрогрессивную структуру.

Введение в AIM V 2

AIM V 2 – это семейство общих видеоэнкодеров, которые отличаются простотой в реализации, масштабируемостью и выдающимися результатами на различных задачах после пре-тренировки. Модели AIM V 2 используют мультимодальный декодер, который автопрогрессивно генерирует патчи изображений и текстовые токены, что позволяет эффективно обучать модель на обоих типах данных одновременно.

Основные концепции

Мультимодальная пре-тренировка: В отличие от традиционных подходов, где модели обучались на одном типе данных, AIM V 2 использует комбинацию изображений и текстов для обучения, что позволяет модели лучше понимать контекст и взаимосвязи между визуальной и текстовой информацией.
Автопрогрессивная генерация: Модель обучается генерировать последовательности токенов, где каждый токен зависит от предыдущих, что аналогично работе больших языковых моделей (LLM). Это позволяет модели учиться на более сложных и разнообразных данных.
Преимущества подхода:
- Простота реализации и масштабируемость без необходимости в больших размерах батчей или специализированных методов меж-батчевой коммуникации.
- Соответствие архитектуры и целей пре-тренировки с приложениями, использующими LLM, что облегчает интеграцию.
- Использование каждого патча изображения и текстового токена для обучения, что обеспечивает более плотный сигнал обучения по сравнению с дискриминативными целями.

Архитектура и процесс обучения

Архитектура модели

AIM V 2 использует архитектуру Vision Transformer (ViT) для видеоэнкодера и мультимодальный декодер для обработки как изображений, так и текстов.

Видеоэнкодер: Преобразует изображения в последовательность патчей, которые затем обрабатываются для извлечения визуальных признаков.
Мультимодальный декодер: Обрабатывает как визуальные признаки, так и текстовые токены, используя приставную и причинную самовнимание для генерации следующего токена в последовательности.

Процесс пре-тренировки

Подготовка данных: Изображения разбиваются на патчи, тексты – на токены. Эти последовательности объединяются в одну мультимодальную последовательность.
Обучение: Модель обучается автопрогрессивно предсказывать следующий токен в последовательности, используя предыдущие токены в качестве контекста. Это делается через минимизацию двух потерь:
- Потеря для изображений: Используется нормализованная MSE потеря для восстановления патчей изображения.
- Потеря для текста: Используется кросс-энтропия для предсказания текстовых токенов.
Масштабируемость: AIM V 2 показывает хорошую масштабируемость как при увеличении объема данных, так и при увеличении количества параметров модели, что позволяет улучшать производительность без значительного увеличения сложности обучения.

Результаты и применение

AIM V 2 демонстрирует превосходные результаты на множестве задач:

Распознавание изображений: Высокая точность на ImageNet-1k с замороженным стволом модели.
Обнаружение объектов и локализация: Улучшение результатов на задачах открытого словарного обнаружения и понимания ссылочных выражений.
Мультимодальное понимание: Превосходство над существующими методами в задачах, требующих одновременного понимания изображений и текстов.

Примеры использования

Обработка изображений высокого разрешения: AIM V 2 адаптируется для работы с изображениями различного разрешения, что делает её полезной для приложений, требующих высокой детализации.
Нулевое обучение: Модель может быть использована в режиме нулевого обучения, предоставляя возможность классификации и понимания контента без дополнительного обучения на специфических задачах.

Заключение

AIM V 2 представляет собой значительный шаг вперед в области пре-тренировки видеоэнкодеров, предлагая мультимодальный подход, который не только улучшает понимание контента, но и облегчает интеграцию с существующими языковыми моделями. Эта модель демонстрирует, что автопрогрессивное обучение может быть эффективно использовано для создания универсальных видеоэнкодеров, способных решать широкий спектр задач в компьютерном зрении и мультимодальном понимании.

Статья на arxiv Оригинал pdf pre-training encoder autoregressive

Ай Дайджест