Critic-V: Улучшение Мультимодального Рассуждения в Моделях Языка и Зрения

Современные модели, сочетающие визуальные и языковые данные, известные как Vision-Language Models (VLMs), достигли значительных успехов в задачах мультимодального понимания и рассуждения. Однако, несмотря на эти достижения, VLMs все еще сталкиваются с проблемами, такими как генерация неточных или нерелевантных ответов. Такие ошибки могут возникать из-за неправильного понимания изображений или недостаточно четких путей рассуждения. Для решения этих проблем была предложена новая архитектура под названием Critic-V, которая использует подход, вдохновленный парадигмой Actor-Critic, для повышения способности VLMs к рассуждению.

Архитектура Critic-V

Critic-V состоит из двух основных компонентов: Reasoner (рассуждающий модуль) и Critic (критический модуль). Reasoner генерирует пути рассуждений на основе визуальных и текстовых входов, а Critic предоставляет конструктивную критику для улучшения этих путей. В этой архитектуре Reasoner генерирует ответы на основе текстовых подсказок, которые могут эволюционировать итеративно в качестве политики, основываясь на обратной связи от Critic.

Reasoner

Reasoner отвечает за генерацию действий рассуждения на основе текущего состояния. Основная цель заключается в оптимизации стратегии рассуждения, что часто достигается путем настройки параметров через стандартные методы обучения с подкреплением (RL). Вместо того чтобы полагаться на фиксированную параметризованную политику, процесс рассуждения в VLMs может управляться динамическими текстовыми подсказками. Это позволяет интегрировать как визуальную, так и текстовую информацию.

Обновление Политики Reasoner

Обновление политики Reasoner происходит на основе обратной связи от Critic. Обновление правил для Reasoner можно выразить следующим образом:

$$ \delta \theta_{\text{reasoner},t} = \nabla_{\theta_{\text{reasoner},t}} \log \pi_{\theta_{\text{reasoner},t}}(P_{\text{reasoner},t} + \delta P_{\text{reasoner},t}, I) R_t $$

где $P_{\text{reasoner},t}$ представляет текущую текстовую подсказку, а $\delta P_{\text{reasoner},t}$ — критику, предоставленную Critic.

Critic

Critic служит важным компонентом, предоставляющим оценочную обратную связь о путях рассуждения, сгенерированных Reasoner. Вместо традиционных скалярных наград, которые присваивают одно числовое значение, Critic предлагает обратную связь на естественном языке, что позволяет более тонко и контекстно осмысленно оценивать результаты. Это особенно ценно для сложных задач, так как позволяет выявлять тонкие детали в процессе рассуждения, включая мелкие ошибки и логические несоответствия.

Обучение Critic

Critic обучается с использованием метода Direct Preference Optimization (DPO), который позволяет модели различать высококачественные и низкокачественные критики. Для генерации предпочтительных данных для обучения Critic используется техника вставки ошибок в визуальные вопросы и ответы (VEST), которая создает деградированные версии правильных ответов с помощью GPT-4o и получает критику от нескольких VLMs.

Применение Critic-V

Critic-V значительно улучшает точность и эффективность рассуждений по сравнению с существующими подходами. В частности, на пяти из восьми оценочных бенчмарков, включая MathVista и RealWorldQA, Critic-V демонстрирует лучшие результаты, что подтверждает его способность решать сложные задачи рассуждения.

Оценка и Результаты

Для оценки эффективности Critic-V были использованы различные бенчмарки, включая RealWorldQA, MMT-Bench и ScienceQA. Результаты показывают, что с добавлением Critic-V модели Qwen2-VL-7B и DeepSeek-VL-7B значительно улучшили свои показатели на большинстве тестов.

Примеры Улучшений

Например, на MathVista Qwen2-VL-7B показал улучшение на 11.8%, а DeepSeek-VL-7B — на 17.8%. Эти результаты подчеркивают способность Critic-V справляться с уникальными вызовами математических задач, где точное и аккуратное рассуждение имеет решающее значение.

Заключение

Critic-V представляет собой многообещающую архитектуру, которая значительно повышает качество обратной связи в процессе визуального восприятия и рассуждения VLMs. Внедрение внешней модели критики, предоставляющей обратную связь на естественном языке, значительно улучшает производительность VLMs, особенно в сложных задачах рассуждения. Результаты показывают, что интеграция хорошо обученной модели критики в процессе вывода превосходит несколько традиционных методов, что открывает новые горизонты для применения VLMs в реальных сценариях, требующих точного и логического рассуждения.

Статья на arxiv Оригинал pdf vlms reinforcement reasoning

Ай Дайджест