Свежая выжимка ml и AI статей - каждый день
В последнее время модели больших языков (LLM) демонстрируют значительные улучшения в своих способностях и надежности, переходя от простого предсказания текста к более сложным задачам, включая визуальное рассуждение. Однако, несмотря на многочисленные усилия по улучшению способностей LLM к рассуждению, данные для долгосрочного рассуждения и оптимизированные тренировочные пайплайны остаются недостаточно изученными в задачах обработки визуально-языковых данных. В данной статье мы представляем Insight-V, систему, которая стремится решить эти проблемы, предлагая новые подходы к созданию данных и обучению моделей для улучшения долгосрочного визуального рассуждения.
Insight-V включает в себя двухэтапный пайплайн для создания данных долгосрочного рассуждения без участия человека:
Прогрессивная стратегия: Для каждого запроса система генерирует длинные и разнообразные пути рассуждений, используя генератор рассуждений, который на каждом шаге предоставляет краткое резюме, детальный ответ и действие для следующего шага.
Многоуровневая оценка: После генерации, пути рассуждений проходят через систему оценки, которая оценивает их качество на разных уровнях, отсеивая некачественные данные и ранжируя оставшиеся по их точности и детальности.
Insight-V использует многомодальные модели больших языков (MLLM), которые объединяют обработку текста и изображений для выполнения задач, требующих визуального понимания. Эти модели обучаются на данных, которые включают как текст, так и изображения, что позволяет им понимать и рассуждать о визуальном контенте.
Для улучшения качества рассуждений Insight-V использует мульти-агентную систему:
Эти агенты работают совместно, улучшая общую способность системы к рассуждению и обеспечивая более точные и структурированные ответы.
Для повышения стабильности и качества генерации рассуждений, Insight-V применяет итеративный алгоритм Direct Preference Optimization (DPO). Этот метод позволяет модели учиться на предпочтениях, которые генерируются на каждом этапе обучения, что приводит к более точному и релевантному рассуждению.
Insight-V была интегрирована с популярной моделью LLaVA-NeXT и нашей улучшенной базовой моделью MLLM. Эксперименты показали значительное улучшение производительности на различных бенчмарках, требующих визуального рассуждения:
Insight-V представляет собой значительный шаг вперед в области визуального рассуждения с использованием многомодальных моделей больших языков. Система предлагает масштабируемый подход к созданию данных для долгосрочного рассуждения и эффективный тренировочный пайплайн, который может быть использован для улучшения существующих моделей. Это исследование открывает новые горизонты для развития моделей, способных к сложному и детальному визуальному анализу, что является ключевым для достижения искусственного общего интеллекта.