Ай Дайджест - категория actor

Critic-V: Улучшение Мультимодального Рассуждения в Моделях Языка и Зрения

Модели визуально-языкового моделирования (VLMs) продемонстрировали значительные достижения в задачах многомодального размышления. Однако они по-прежнему часто генерируют неточные или неуместные ответы из-за таких проблем, как галлюцинирующее понимание изображений или неосмысленные пути размышления. Чтобы справиться с этими проблемами, мы вводим Critic-V, новую структуру, вдохновленную парадигмой Actor-Critic, для повышения способности размышления VLMs. Эта структура расщепляет процесс размышления и процесс критики, интегрируя два независимых компонента: Reasoner, который генерирует пути размышления на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для уточнения этих путей. В этом подходе Reasoner генерирует ответы на размышления в соответствии с текстовыми подсказками, которые могут итеративно развиваться как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически основан на рамках обучения с подкреплением, где Critic предлагает критические замечания на естественном языке вместо скалярных наград, позволяя дать более тонкую обратную связь для повышения способности Reasoner в сложных задачах размышления. Модель Critic обучается с использованием Оптимизации Прямых Предпочтений (DPO), используя набор предпочтений критики, ранжированный по Награде на основе Правил (RBR), для улучшения своих критических возможностей. Результаты оценивания показывают, что структура Critic-V значительно превосходит существующие методы, включая GPT-4V, по 5 из 8 эталонов, особенно в отношении точности и эффективности размышлений. Сочетание динамической текстовой политики для Reasoner и конструктивной обратной связи от оптимизированного по предпочтениям Critic позволяет более надежный и чувствительный к контексту многомодальный процесс размышления. Наш подход предоставляет многообещающее решение для повышения надежности VLMs, улучшая их производительность в реальных приложениях с интенсивным размышлением, таких как автономное вождение и воплощенная интеллектуальность.

2024-11-29vlms reinforcement reasoning