InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Разработка систем искусственного интеллекта (AI), способных взаимодействовать с окружающей средой на протяжении длительного времени, подобно человеческому мышлению, является важной задачей в области исследований. Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно продвинули понимание открытого мира. Однако проблемы непрерывного и одновременного восприятия, памяти и рассуждений остаются в значительной степени неразрешенными. Современные MLLM ограничены своей последовательной архитектурой, что затрудняет одновременную обработку входных данных и генерацию ответов.

Проблемы существующих моделей

Существующие архитектуры MLLM сталкиваются с серьезными ограничениями в реальном времени и долгосрочном восприятии, рассуждениях и памяти. Архитектура, основанная на принципе "последовательность-в-последовательность", требует переключения между восприятием (например, зрением и слухом) и мышлением, что ограничивает одновременную обработку входов и выходов. Кроме того, существующие решения полагаются на интеграцию мультимодальных воспоминаний в контекстные окна, что неэффективно для долгосрочного использования, особенно в сценариях, требующих непрерывной помощи AI.

Вдохновение от человеческого мозга

Человеческий мозг легко интегрирует восприятие и когницию, сохраняя долгосрочные мультимодальные воспоминания. Это связано с функциональным разделением дизайна коры головного мозга, где различные области отвечают за различные задачи, такие как восприятие, память и когниция. Вдохновленные этой парадигмой, мы предлагаем систему InternLM-XComposer2.5-OmniLive (IXC2.5-OL), состоящую из специализированных моделей для восприятия, рассуждения и памяти.

Архитектура IXC2.5-OL

Система IXC2.5-OL состоит из трех ключевых модулей:

Модуль потокового восприятия: Обрабатывает мультимодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователя.
Модуль мультимодальной долгосрочной памяти: Интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности.
Модуль рассуждений: Отвечает на запросы и выполняет задачи рассуждений, координируясь с модулями восприятия и памяти.

Эта система позволяет AI воспринимать, думать и запоминать одновременно, преодолевая ограничения, связанные с чередованием восприятия и рассуждений.

Модуль потокового восприятия

Модуль потокового восприятия состоит из двух подмодулей: Модуля перевода аудио и Модуля восприятия видео.

Модуль перевода аудио: Он включает в себя аудиокодер, который кодирует входные аудиосигналы в высокоразмерные признаки, и малую языковую модель (SLM), которая выводит как класс (например, смех или аплодисменты), так и текст (автоматическое распознавание речи).
Модуль восприятия видео: Обрабатывает поток видео в реальном времени, кодируя каждую рамку в семантические признаки. Для повышения эффективности используется модель OpenAI CLIP.

Модуль мультимодальной долгосрочной памяти

Модуль мультимодальной долгосрочной памяти является центральным элементом, который справляется с очень длинными видео входами и помогает модулю рассуждений избавляться от миллионов токенов из своего контекстного окна. Он реализует три основных задачи:

Сжатие клипов видео: Извлекает признаки из видео и инициализирует краткосрочную память.
Интеграция памяти: Объединяет краткосрочную и глобальную память в долгосрочную память, что позволяет эффективно хранить и извлекать информацию.
Извлечение клипов видео: Когда пользователь задает вопросы, модуль извлекает соответствующие видео клипы и передает их модулю рассуждений.

Модуль рассуждений

Модуль рассуждений активируется модулем восприятия и обрабатывает запросы, основываясь на информации, полученной от модулей памяти и восприятия. Он также реализует процесс предсказания инструкций, чтобы определить, следует ли отвечать на входящие вопросы или игнорировать шумные вводы.

Система IXC2.5-OL в действии

Система IXC2.5-OL демонстрирует сильные результаты на различных аудио и видео бенчмарках. Например, она достигает конкурентоспособных результатов на тестах автоматического распознавания речи (ASR) для китайского и английского языков. В области понимания видео система показывает результаты на уровне передовых моделей с менее чем 10 миллиардами параметров.

Заключение

IXC2.5-OL представляет собой продвинутую систему, которая позволяет пользователям взаимодействовать с динамическими и интерактивными опытами. Благодаря своей способности обрабатывать мультимодальные данные в реальном времени и поддерживать долгосрочную память, эта система предоставляет более интуитивный и эффективный пользовательский опыт. В будущем акцент будет сделан на снижении задержки системы для обеспечения бесшовного взаимодействия с пользователем.

Таким образом, IXC2.5-OL открывает новые горизонты для применения AI в реальном времени, обеспечивая более глубокое понимание и взаимодействие с мультимодальными данными, что делает ее важным шагом вперед в области искусственного интеллекта.

Статья на arxiv Оригинал pdf memory multimodal perception

Ай Дайджест