Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "comprehension"

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

I,NST-IT: Усовершенствование многомодального понимания экземпляров через явную настройку визуальных подсказок

Большие мультимодальные модели (LMM) достигли значительных прорывов благодаря развитию настройки инструкций. Однако, хотя существующие модели могут понимать изображения и видео на целостном уровне, им все еще трудно осваивать понимание на уровне экземпляров, которое требует более тонкого восприятия и согласования. Понимание на уровне экземпляров имеет решающее значение, так как оно сосредоточено на конкретных элементах, которые нас больше всего интересуют. Увлекательно, что существующие работы показывают, что передовые LMM демонстрируют сильные способности понимания экземпляров, когда им предоставляются явные визуальные подсказки. Вдохновленные этим, мы представляем автоматизированный процесс аннотирования, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляров из изображений и видео с помощью явного визуального побуждения для руководства по экземплярам. Основываясь на этом процессе, мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров через настройку инструкций с явными визуальными подсказками. Inst-IT состоит из эталона для диагностики мультимодального понимания на уровне экземпляров, набора данных для настройки инструкций в большом масштабе и непрерывной парадигмы обучения настройки инструкций для эффективного улучшения пространственно-временных способностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что с помощью Inst-IT наши модели достигают не только выдающихся результатов на Inst-IT Bench, но и демонстрируют значительные улучшения по различным базам понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляров, но и укрепляет общие способности к пониманию изображений и видео.

SAR3D: Авторегрессивная генерация и понимание 3D объектов с помощью мультимасштабного 3D VQVAE

Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от крупных языковых моделей (LLMs) до крупных мультимодальных моделей (LMMs) и генерации двумерного контента, приближаясь к достижению искусственного общего интеллекта (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию трехмерных объектов остается в значительной степени неизведанным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный трехмерный векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов с целью эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего одиночного токена, SAR3D значительно сокращает время генерации, позволяя создавать трехмерные объекты всего за 0.82 секунды на GPU A6000. Кроме того, учитывая, что токены обогащены иерархической информацией, учитывающей трехмерность, мы дообучаем предобученную LLM на этих токенах, что позволяет многомодальному пониманию трехмерного контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D объектов как по скорости, так и по качеству, а также позволяет LLM интерпретировать и описывать трехмерные модели комплексно.

Как Чтение Манги Может Помочь Видео-Моделям Понимать Время

Видео Большие Языковые Модели (Vid-LLMs) достигли значительных успехов в понимании видеоконтента для диалога с вопросами и ответами. Однако они сталкиваются с трудностями при расширении этого визуального понимания на задачи, требующие точной временной локализации, известные как Временная Локализация Видео (VTG). Чтобы преодолеть этот разрыв, мы представляем Числовую Подсказку (NumPro), новаторский метод, который позволяет Vid-LLMs соединять визуальное понимание с временной локализацией, добавляя уникальные числовые идентификаторы к каждому кадру видео. Рассматривая видео как последовательность пронумерованных кадров, NumPro превращает VTG в интуитивный процесс: перелистывание страниц манги по порядку. Это позволяет Vid-LLMs "читать" временные линии событий, точно связывая визуальный контент с соответствующей временной информацией. Наши эксперименты показывают, что NumPro значительно улучшает производительность VTG ведущих Vid-LLMs без дополнительных вычислительных затрат. Более того, доработка на наборе данных, усиленном NumPro, устанавливает новый стандарт для VTG, превосходя предыдущие лучшие методы на 6.9% по mIoU для извлечения моментов и на 8.5% по mAP для обнаружения выделенных моментов. Код будет доступен по адресу https://github.com/yongliang-wu/NumPro.