Ай Дайджест - категория mllms

InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Создание систем ИИ, которые могут взаимодействовать с окружающей средой в течение длительного времени, аналогично человеческому познанию, было давней исследовательской целью. Недавние достижения в области многомодальных больших языковых моделей (MLLM) сделали значительные успехи в понимании открытого мира. Однако задача непрерывного и одновременного восприятия, хранения памяти и рассуждений остается в значительной степени неисследованной. Текущие MLLM ограничены своей архитектурой «последовательность в последовательность», что ограничивает их способность обрабатывать вводимые данные и генерировать ответы одновременно, подобно неспособности мыслить во время восприятия. Более того, полагаться на долгие контексты для хранения исторических данных непрактично для долгосрочных взаимодействий, поскольку удержание всей информации становится дорогостоящим и неэффективным. Поэтому вместо того, чтобы полагаться на единую базовую модель для выполнения всех функций, этот проект черпает вдохновение из концепции специализированного универсального ИИ и вводит механизмы раздельного потокового восприятия, рассуждений и памяти, позволяя взаимодействовать в реальном времени с потоковым видео и аудио вводом. Предлагаемая структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль потокового восприятия: обрабатывает многомодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователей. (2) Модуль многомодальной долгосрочной памяти: интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности. (3) Модуль рассуждений: отвечает на запросы и выполняет задачи рассуждения, координируя работу с модулями восприятия и памяти. Этот проект имитирует человеческое подобное познание, позволяя многомодальным большим языковым моделям предоставлять непрерывные и адаптивные услуги с течением времени.

2024-12-13multimodal reasoning streaming