Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

В последнее время модели больших языков (LLM) демонстрируют значительные улучшения в своих способностях и надежности, переходя от простого предсказания текста к более сложным задачам, включая визуальное рассуждение. Однако, несмотря на многочисленные усилия по улучшению способностей LLM к рассуждению, данные для долгосрочного рассуждения и оптимизированные тренировочные пайплайны остаются недостаточно изученными в задачах обработки визуально-языковых данных. В данной статье мы представляем Insight-V, систему, которая стремится решить эти проблемы, предлагая новые подходы к созданию данных и обучению моделей для улучшения долгосрочного визуального рассуждения.

Insight-V: Концепция и Реализация

Генерация данных для долгосрочного рассуждения

Insight-V включает в себя двухэтапный пайплайн для создания данных долгосрочного рассуждения без участия человека:

Прогрессивная стратегия: Для каждого запроса система генерирует длинные и разнообразные пути рассуждений, используя генератор рассуждений, который на каждом шаге предоставляет краткое резюме, детальный ответ и действие для следующего шага.
Многоуровневая оценка: После генерации, пути рассуждений проходят через систему оценки, которая оценивает их качество на разных уровнях, отсеивая некачественные данные и ранжируя оставшиеся по их точности и детальности.

Многомодальный подход

Insight-V использует многомодальные модели больших языков (MLLM), которые объединяют обработку текста и изображений для выполнения задач, требующих визуального понимания. Эти модели обучаются на данных, которые включают как текст, так и изображения, что позволяет им понимать и рассуждать о визуальном контенте.

Мульти-агентная система

Для улучшения качества рассуждений Insight-V использует мульти-агентную систему:

Агент рассуждений отвечает за генерацию длинных цепочек рассуждений.
Агент резюмирования оценивает и суммирует результаты рассуждений, выбирая наиболее релевантную информацию для ответа на вопрос.

Эти агенты работают совместно, улучшая общую способность системы к рассуждению и обеспечивая более точные и структурированные ответы.

Итеративное обучение с предпочтениями (DPO)

Для повышения стабильности и качества генерации рассуждений, Insight-V применяет итеративный алгоритм Direct Preference Optimization (DPO). Этот метод позволяет модели учиться на предпочтениях, которые генерируются на каждом этапе обучения, что приводит к более точному и релевантному рассуждению.

Эксперименты и Результаты

Insight-V была интегрирована с популярной моделью LLaVA-NeXT и нашей улучшенной базовой моделью MLLM. Эксперименты показали значительное улучшение производительности на различных бенчмарках, требующих визуального рассуждения:

Общий прирост производительности составил 7.0% для LLaVA-NeXT и 2.9% для нашей базовой модели MLLM.
Улучшение в задачах восприятия также было замечено, что свидетельствует о том, что Insight-V не только улучшает рассуждение, но и поддерживает или даже улучшает способности к восприятию.

Заключение

Insight-V представляет собой значительный шаг вперед в области визуального рассуждения с использованием многомодальных моделей больших языков. Система предлагает масштабируемый подход к созданию данных для долгосрочного рассуждения и эффективный тренировочный пайплайн, который может быть использован для улучшения существующих моделей. Это исследование открывает новые горизонты для развития моделей, способных к сложному и детальному визуальному анализу, что является ключевым для достижения искусственного общего интеллекта.

Статья на arxiv Оригинал pdf agent vision data

Ай Дайджест