Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

В современном мире, где искусственный интеллект и машинное обучение играют всё более важную роль, создание высококачественных наборов данных для обучения моделей становится ключевым фактором успеха. В этой статье мы рассмотрим инновационный подход, представленный в исследовании под названием "BLIP3-KALE: Knowledge-Augmented Large-Scale Dense Captions", который предлагает новый метод создания описаний изображений, обогащённых знаниями.

Что такое KALE?

KALE (Knowledge-Augmented Large-Scale Dense Captions) — это набор данных, состоящий из 218 миллионов пар изображений и текстов, который стремится преодолеть разрыв между синтетическими описаниями, созданными моделями машинного обучения, и реальными, фактически обоснованными описаниями, полученными из веб-контента. Этот набор данных использует двухэтапный процесс для создания описаний, которые не только описывают изображения, но и включают в себя фактическую информацию, что делает их более полезными для обучения моделей.

Этап 1: Генерация начальных знание-обогащённых описаний

Первый этап включает в себя использование модели CogVLM-17B для создания плотных описаний изображений из набора данных Datacomp-1B. Эти описания затем дополняются реальными знаниями с помощью языковой модели Mistral, которая получает инструкции обогатить описания фактами из веб-контента. Этот процесс создает первоначальный пул из 100 миллионов знание-обогащённых описаний.

Этап 2: Масштабирование и оптимизация

На втором этапе используются полученные на первом этапе описания для обучения специализированной модели VLM (Vision-Language Model), которая затем генерирует дополнительные 118 миллионов описаний, доводя общий объем до 218 миллионов пар. Модель VLM обучается на изображениях и их оригинальных описаниях из Datacomp-1B, а также на знание-обогащённых описаниях, созданных на первом этапе.

Преимущества KALE

Масштаб и плотность: KALE значительно превосходит предыдущие наборы данных по количеству образцов и средней длине описания, предоставляя более глубокое и детальное описание изображений.
Эффективность генерации: Использование дистилляции позволяет создавать высококачественные описания с меньшими вычислительными затратами, что делает процесс масштабирования более доступным.
Улучшение моделей: Обучение на KALE показывает улучшение производительности моделей на различных задачах, связанных с обработкой изображений и текста.

Сравнение с другими наборами данных

В таблице ниже приведено сравнение KALE с другими открытыми синтетическими наборами данных:

| Набор данных | Количество образцов | Средняя плотность (слова/описание) | Обогащение знаниями | Размер модели для создания описаний (параметры) | |--------------|----------------------|------------------------------------|--------------------|------------------------------------------------| | LAION-COCO | 1,600M | 8.99 | ✗ | 0.5B | | ReCap-Datacomp-1B | 1.28B | 49.43 | ✗ | 7B | | CapsFusion | 120M | 22.74 | ✓ | 0.5B | | KALE | 218M | 67.26 | ✓ | 17B (этап 1) → 2B (этап 2) |

Эксперименты и результаты

Эксперименты показали, что модели, обученные на KALE, демонстрируют значительные улучшения по сравнению с моделями, обученными на других наборах данных. В частности, KALE превосходит CapsFusion и другие наборы данных по ряду ключевых метрик:

TextVQA: 59.92% (KALE) против 57.62% (CapsFusion)
VQAv2: 70.10% (KALE) против 67.30% (CapsFusion)
ScienceQA: 72.68% (KALE) против 71.79% (CapsFusion)

Эти результаты подтверждают, что знание-обогащённые описания способствуют лучшему пониманию контекста и содержания изображений моделями машинного обучения.

Заключение

KALE представляет собой значительный шаг вперёд в создании наборов данных для обучения моделей обработки изображений и текста. Используя комбинацию синтетических описаний и фактической информации из веб-контента, KALE предлагает более богатые и точные описания, что улучшает обучение моделей и их производительность на различных задачах. Однако, как и в любом исследовании, существуют ограничения, такие как возможные артефакты в данных и необходимость дальнейшего масштабирования и усовершенствования методов обогащения знаниями.

В будущем, исследования могут быть направлены на увеличение объема данных до миллиардов пар, улучшение методов интеграции знаний и расширение применимости KALE для других мультимодальных задач.

Статья на arxiv Оригинал pdf dataset vision language

Ай Дайджест