Ай Дайджест - категория integration

Chimera: Улучшение универсальной модели с помощью специализированных экспертов

Недавние достижения в области крупных мультимодальных моделей (LMM) подчеркивают важность масштабирования за счет увеличения объема парных данных изображений и текста, что приводит к впечатляющим результатам в общих задачах. Несмотря на их эффективность в широких приложениях, общие модели в основном обучаются на датасетах веб-масштаба, доминирующих естественными изображениями, что приводит к жертве специализированными возможностями для задач, требующих обширных предварительных знаний в конкретной области. Более того, прямое интегрирование экспертных моделей, адаптированных для определенных областей, является сложной задачей из-за разрыва в представлении и дисбаланса оптимизации между общей моделью и экспертами. Чтобы решить эти проблемы, мы представляем Chimera, масштабируемый и недорогой мультимодальный конвейер, разработанный для повышения способности существующих LMM с помощью экспертов из конкретных областей. В частности, мы разрабатываем прогрессивную стратегию обучения для интеграции функций из экспертных моделей в ввод общей мультимодальной модели. Чтобы решить дисбаланс оптимизации, вызванный хорошо согласованным общим визуальным кодировщиком, мы вводим новый механизм сотрудничества между общими и специализированными моделями (GSCM). Это приводит к универсальной модели, которая превосходит по всем параметрам в областях графиков, таблиц, математики и документов, достигая состояния искусства в задачах мультимодального рассуждения и извлечения визуального содержания, обе из которых являются сложными задачами для оценки существующих LMM.

2024-12-11training multi-modal optimization

VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

Обнаружение видеогармонии и извлечение моментов (HD/MR) имеют важное значение в анализе видео. Недавние модели предсказания, основанные на трансформерах, часто упускают из виду динамику между задачами и согласование и уточнение видео и текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальным показателям в захвате взаимозависимости между видео и текстовыми модальностями. Хотя большие языковые и языковые-видевые модели (LLM/LVLMs) стали более заметными в различных областях, их применение в этой области остаётся относительно недостаточно исследованным. Мы предлагаем VideoLights, новую HD/MR платформу, которая решает эти ограничения через (i) полноразмерные модули проекции и уточнения функций с потерей согласования для лучшего согласования видео-текстовых функций, (ii) двунаправленную сеть кросс-модального слияния для сильно связанного запроса с учетом представлений клипов, и (iii) однонаправленный механизм обратной связи для совместных задач, который усиливает обе задачи через корреляцию. В дополнение к этому, (iv) мы вводим жёсткие положительные/отрицательные потери для адаптивного штрафования ошибок и улучшенного обучения, и (v) используем LVLMs, такие как BLIP-2, для улучшенной мультимодальной интеграции функций и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLMs. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют состояние на индексе состояния. Код и модели доступны на https://github.com/dpaul06/VideoLights.

2024-12-04integration models refinement

UniPose: Единная мультимодальная структура для понимания, генерации и редактирования человеческой позы

Человеческая поза играет решающую роль в цифровую эпоху. Хотя недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и функционируют в изоляции, что ограничивает их применение в реальных сценариях. В этой статье представлена UniPose, структура, использующая большие языковые модели (LLMs) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D-позы SMPL. Конкретно, мы применяем токенизатор поз, чтобы преобразовать 3D-позы в дискретные токены поз, что позволяет бесшовную интеграцию в LLM в рамках единого словаря. Чтобы дополнительно улучшить возможности точного восприятия позы, мы оснастили UniPose смесью визуальных кодеров, среди которых специальный визуальный кодер для поз. Пользуясь единой стратегией обучения, UniPose эффективно передает знания между различными задачами, связанными с позами, адаптируется к невиданным задачам и демонстрирует расширенные возможности. Эта работа является первой попыткой создать универсальную структуру для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособные и даже превосходящие показатели UniPose в различных задачах, связанных с позами.

2024-11-28tokenizer model generation