Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "perception"

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Мультимодальные большие языковые модели (МЛЛМ) достиглиrapid прогресса за последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (НУВП) — особенно со способностью точно описывать геометрические детали изображения. Эта способность жизненно важна для приложений в таких областях, как робототехника, анализ медицинских изображений и производство. В этой статье мы сначала представляем Геовосприятие, эталонный показатель, предназначенный для оценки способности МЛЛМ точно транскрибировать 2D геометрическую информацию из изображения. Используя этот эталон, мы демонстрируем ограничения ведущих МЛЛМ, а затем проводим всестороннее эмпирическое исследование, чтобы изучить стратегии улучшения их производительности по геометрическим задачам. Наши выводы подчеркивают преимущества некоторых архитектур моделей, техник обучения и стратегий данных, включая использование синтетических данных высокого качества и многоуровневое обучение с учебным планом данных. Особенно мы обнаруживаем, что учебный план данных позволяет моделям изучать сложные задачи понимания геометрии, которые они не могут усвоить с нуля. Основываясь на этих выводах, мы разрабатываем Евклид, семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Евклид обучался исключительно на синтетических мультимодальных данных, он демонстрирует сильные способности к обобщению на новых геометрических формах. Например, Евклид превосходит лучшую закрытую модель Gemini-1.5-Pro на 58.56% по определенным задачам эталона Геовосприятия и на 10.65% в среднем по всем задачам.

InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Создание систем ИИ, которые могут взаимодействовать с окружающей средой в течение длительного времени, аналогично человеческому познанию, было давней исследовательской целью. Недавние достижения в области многомодальных больших языковых моделей (MLLM) сделали значительные успехи в понимании открытого мира. Однако задача непрерывного и одновременного восприятия, хранения памяти и рассуждений остается в значительной степени неисследованной. Текущие MLLM ограничены своей архитектурой «последовательность в последовательность», что ограничивает их способность обрабатывать вводимые данные и генерировать ответы одновременно, подобно неспособности мыслить во время восприятия. Более того, полагаться на долгие контексты для хранения исторических данных непрактично для долгосрочных взаимодействий, поскольку удержание всей информации становится дорогостоящим и неэффективным. Поэтому вместо того, чтобы полагаться на единую базовую модель для выполнения всех функций, этот проект черпает вдохновение из концепции специализированного универсального ИИ и вводит механизмы раздельного потокового восприятия, рассуждений и памяти, позволяя взаимодействовать в реальном времени с потоковым видео и аудио вводом. Предлагаемая структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль потокового восприятия: обрабатывает многомодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователей. (2) Модуль многомодальной долгосрочной памяти: интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности. (3) Модуль рассуждений: отвечает на запросы и выполняет задачи рассуждения, координируя работу с модулями восприятия и памяти. Этот проект имитирует человеческое подобное познание, позволяя многомодальным большим языковым моделям предоставлять непрерывные и адаптивные услуги с течением времени.

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

HUGSIM: Фотореалистичный замкнутый симулятор для автономного вождения

За последние несколько десятилетий алгоритмы автономного вождения значительно продвинулись в области восприятия, планирования и управления. Однако оценка отдельных компонентов не полностью отражает работу целых систем, что подчеркивает необходимость более целостных методов оценки. Это мотивирует разработку HUGSIM, замкнутого, фотореалистичного и реального симулятора для оценки алгоритмов автономного вождения. Мы достигаем этого, поднимая захваченные 2D RGB-изображения в 3D-пространство с помощью 3D Gaussian Splatting, улучшая качество рендеринга для замкнутых сценариев и создавая замкнутую среду. В плане рендеринга мы решаем проблемы синтеза новых представлений в замкнутых сценариях, включая экстраполяцию точки зрения и рендеринг автомобиля на 360 градусов. Помимо синтеза новых представлений, HUGSIM также обеспечивает полный замкнутый симуляционный цикл, динамически обновляя состояния эго-агента и акторов, а также наблюдения на основе команд управления. Более того, HUGSIM предлагает обширный бенчмарк более чем по 70 последовательностям из KITTI-360, Waymo, nuScenes и PandaSet, а также более 400 различных сценариев, обеспечивая справедливую и реалистичную платформу для оценки существующих алгоритмов автономного вождения. HUGSIM не только служит интуитивным бенчмарком для оценки, но и открывает потенциал для тонкой настройки алгоритмов автономного вождения в фотореалистичной замкнутой обстановке.

Обзор MME-Survey: Комплексная оценка мультимодальных крупных языковых моделей (MLLMs)

В качестве одного из ключевых направлений в области искусственного общедоступного интеллекта (AGI), мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание как со стороны промышленности, так и академической сферы. Основываясь на предварительно обученных языковых моделях, эти модели развивают мультимодальные восприятие и способности к рассуждению, которые впечатляют, например, написание кода на основе блок-схемы или создание историй по изображению. В процессе разработки оценка играет критическую роль, поскольку она предоставляет интуитивную обратную связь и руководство по улучшению моделей. В отличие от традиционной парадигмы обучение-оценка-тестирование, которая ориентирована только на одну задачу, например, классификацию изображений, универсальность MLLMs стимулировала появление различных новых бенчмарков и методов оценки. В данной статье мы ставим целью представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы бенчмарков, разделённые по возможностям оценки, включая базовые способности, самоанализ модели и расширенные приложения; 2) типичный процесс создания бенчмарков, включающий сбор данных, аннотацию и меры предосторожности; 3) систематический способ оценки, состоящий из судейства, метрик и инструментария; 4) перспективы для следующего бенчмарка. Эта работа направлена на то, чтобы предложить исследователям простое понимание того, как эффективно оценивать MLLMs в зависимости от различных потребностей и вдохновить на создание лучших методов оценки, тем самым способствуя прогрессу в исследованиях MLLM.

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

Введение в Diff-2-in-1: Объединение Генерации и Плотного Восприятия с Помощью Моделей Диффузии

За пределами высококачественного синтеза изображений модели диффузии недавно показали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают модели диффузии как автономный компонент для задач восприятия, используя их либо исключительно для готовых методов аугментации данных, либо в качестве простых извлекателей признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, многофункциональную, основанную на диффузии платформу Diff-2-in-1, которая может одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие через уникальное использование процесса диффузии-денойзинга. В рамках этой платформы мы дополнительно улучшаем дискриминативное визуальное восприятие за счет многомодальной генерации, используя сеть денойзинга для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно отметить, что Diff-2-in-1 оптимизирует использование созданных разнообразных и верных данных за счет применения нового механизма самосовершенствования обучения. Всеобъемлющие экспериментальные оценки подтверждают эффективность нашей платформы, демонстрируя последовательные улучшения производительности для различных дискриминативных базовых моделей и генерацию высококачественных многомодальных данных, характеризующихся как реализмом, так и полезностью.