Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "encoder"

Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Мы рассматриваем проблему оценки целевого взгляда, которая направлена на предсказание того, куда смотрит человек в сцене. Для предсказания целевого взгляда человека требуется рассуждение как о внешнем виде человека, так и о содержании сцены. Ранее разработанные работы создали все более сложные ручные схемы для оценки целевого взгляда, которые тщательно объединяют признаки из различных кодировщиков сцен, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и положение. Побуждаемые успехом универсальных экстракторов признаков в различных визуальных задачах, мы предлагаем Gaze-LLE — новую трансформерную структуру, которая упрощает оценку целевого взгляда, используя признаки из замороженного DINOv2 кодировщика. Мы извлекаем одно представление признака для сцены и применяем специфичный для человека позиционный запрос для декодирования взгляда с помощью легковесного модуля. Мы демонстрируем передовые достижения в нескольких бенчмарках по оценке взгляда и предоставляем обширный анализ для проверки наших проектных решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

OLA-VLM: Оптимизация визуального восприятия в многомодальных больших языковых моделях

Стандартная практика разработки современных многомодальных языковых моделей (MLLM) заключается в том, чтобы подавать признаки от визуальных кодеров в языковую модель (LLM) и обучаться с использованием естественного языка. В этой работе мы выдвигаем упущенную возможность оптимизировать промежуточные представления LLM с точки зрения визуального восприятия (цель), т.е. использование только естественного языка в качестве надзора является субоптимальным для способности MLLM к визуальному пониманию. С этой целью мы предлагаем OLA-VLM, первый подход, который дистиллирует знания в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель на этапе предобучения MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием естественного языка, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их последующей производительностью. Более того, при изучении нашего OLA-VLM мы наблюдаем улучшение качества представления благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит базовые уровни одно- и многокодировщиков, подтверждая превосходство нашего подхода по сравнению с явной подачей соответствующих признаков в LLM. В частности, OLA-VLM увеличивает производительность в среднем на 2,5% по различным тестам, с заметным улучшением на 8,7% в задаче Depth в CV-Bench. Наш код является открытым источником по адресу https://github.com/SHI-Labs/OLA-VLM.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

Эффективное отслеживание объектов в видео с помощью EfficientTrackAnything

Модель Segment Anything Model 2 (SAM 2) зарекомендовала себя как мощный инструмент для сегментации объектов в видео и отслеживания всего. Ключевыми компонентами SAM 2, которые обеспечивают впечатляющие результаты сегментации видеообъектов, являются большой многоступенчатый энкодер изображений для извлечения характеристик кадров и механизм памяти, который хранит контексты памяти из прошлых кадров, чтобы помочь сегментации текущего кадра. Высокая вычислительная сложность многоступенчатого энкодера изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации видеообъектов на мобильных устройствах. Для решения этой проблемы мы предлагаем EfficientTAMs, легковесные модели отслеживания всего, которые обеспечивают высококачественные результаты с низкой задержкой и небольшим размером модели. Наша идея основана на пересмотре простого, неиерархического Vision Transformer (ViT) в качестве энкодера изображений для сегментации объектов в видео, а также на введении эффективного модуля памяти, который уменьшает сложность как для извлечения характеристик кадров, так и для вычисления памяти для сегментации текущего кадра. Мы берем ванильные легковесные ViTs и эффективный модуль памяти для построения EfficientTAMs и тренируем модели на наборах данных SA-1B и SA-V для задач сегментации объектов в видео и отслеживания всего. Мы оцениваем несколько бенчмарков сегментации видео, включая полусупервизированную VOS и запрашиваемую сегментацию видео, и находим, что наша предложенная EfficientTAM с ванильным ViT демонстрирует сопоставимые результаты с моделью SAM 2 (HieraB+SAM 2) с ускорением примерно в 2 раза на A100 и сокращением параметров примерно на 2,4 раза. В задачах сегментации изображений с учетом всего, наши EfficientTAM также показывают лучшие результаты по сравнению с оригинальной SAM с ускорением примерно в 20 раз на A100 и сокращением параметров примерно на 20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAM могут работать со скоростью около 10 FPS для выполнения сегментации объектов в видео с разумным качеством, подчеркивая возможности маленьких моделей для приложений сегментации объектов в видео на устройстве.

Долгосрочное извлечение ключевых фраз для длинных документов: Введение в LongKey

В эпоху информационного перегрузки ручная аннотация обширного и растущего корпуса документов и научных статей становится все менее практичной. Автоматизированное извлечение ключевых фраз решает эту задачу, идентифицируя представительные термины в текстах. Однако большинство существующих методов ориентированы на короткие документы (до 512 токенов), оставляя пробел в обработке длинных контекстов. В этой статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из длинных документов, которая использует языковую модель на основе кодировщика для захвата сложных аспектов текста. LongKey использует эмбеддер с максимальным пуллингом для улучшения представления кандидатов на ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невиданных наборах данных, LongKey постоянно превосходит существующие методы извлечения ключевых фраз на основе ненадзорного обучения и языковых моделей. Наши данные демонстрируют универсальность LongKey и его превосходную производительность, что является прогрессом в извлечении ключевых фраз для различных длин текстов и областей.

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одно из перспективных направлений - разработка токенизатора, способного кодировать длинные видеофрагменты, что позволило бы токенизатору лучше использовать временную когерентность видео для токенизации. Однако, обучение существующих токенизаторов на длинных видео часто влечет за собой огромные затраты на обучение, так как они обучены на восстановлении всех кадров одновременно. В данной статье мы представляем CoordTok, токенизатор видео, который учится преобразовывать представления на основе координат в соответствующие патчи входных видео, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в фрагментированные трехплоскостные представления и восстанавливает патчи, соответствующие случайно выбранным координатам (x,y,t). Это позволяет обучать большие модели токенизаторов непосредственно на длинных видео без необходимости в чрезмерных ресурсах для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов, необходимых для кодирования длинных видеофрагментов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128x128 в 1280 токенов, тогда как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества восстановления. Мы также показываем, что такая эффективная токенизация видео позволяет проводить обучение диффузионного трансформера, который может генерировать 128 кадров одновременно, экономя память.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

LLM2CLIP: Как мощные языковые модели улучшают визуальные представления

CLIP является одной из наиболее важных мультимодальных базовых моделей сегодня. Что обеспечивает возможности CLIP? Богатые сигналы надзора, предоставляемые естественным языком, носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрым развитием крупных языковых моделей (LLM), таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это ставит интригующий вопрос: можно ли использовать возможности LLM для дальнейшего улучшения мультимодального обучения представлений? Потенциальные выгоды от интеграции LLM в CLIP очевидны. Сильное текстовое понимание LLM может существенно улучшить способность CLIP обрабатывать подписи к изображениям, значительно повышая его способность работать с длинными и сложными текстами, что является известным ограничением оригинального CLIP. Более того, LLM обучаются на огромных корпусах текста, обладая знаниями открытого мира. Это позволяет им расширять информацию подписей во время обучения, повышая эффективность процесса обучения. В этой статье мы предлагаем LLM2CLIP, новый подход, который использует силу LLM для раскрытия потенциала CLIP. Путем тонкой настройки LLM в пространстве подписей с использованием контрастивного обучения, мы извлекаем его текстовые способности в выходные вложения, значительно улучшая дискриминационность текстовых выходных данных. Затем мы разрабатываем эффективный процесс обучения, где тонко настроенный LLM выступает в роли мощного учителя для визуального энкодера CLIP. Благодаря присутствию LLM, мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и возможностями текстового энкодера оригинального CLIP. Наши эксперименты показывают, что этот подход приносит значительные улучшения в кросс-модальных задачах.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

Адаптивная Длина Токенизации Изображений через Рекуррентное Выделение

Текущие системы компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержания информации. Это контрастирует с человеческим интеллектом — и даже с большими языковыми моделями — которые распределяют различные объемы представлений в зависимости от энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщика-декодера рекурсивно обрабатывает токены двумерных изображений, превращая их в одномерные скрытые токены в ходе нескольких итераций рекуррентных проходов. Каждая итерация уточняет двумерные токены, обновляет существующие одномерные скрытые токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256. Мы проверяем наш токенизатор, используя метрики потери восстановления и FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям последующих задач. Рекуррентная обработка токенов с увеличением представительной емкости на каждой итерации показывает признаки специализации токенов, открывая потенциал для обнаружения объектов или частей.

Минимальное Энтропийное Сопряжение с Боттлнечком (MEC-B): Новый Подход к Потерям в Сжатии

В данной статье исследуется новая структура сжатия с потерями, работающая при логарифмических потерях, разработанная для обработки ситуаций, когда распределение восстановления отличается от исходного распределения. Эта структура особенно актуальна для приложений, требующих совместного сжатия и извлечения данных, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую структуру минимальной энтропии связи за счет интеграции "узкого места", что позволяет контролировать степень стохастичности в связи. Мы исследуем разложение Минимальной Энтропии Связи с "узким местом" (MEC-B) на две отдельные задачи оптимизации: Максимизация Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальная Энтропия Связи (MEC) для декодера. В ходе обширного анализа мы предлагаем жадный алгоритм для EBIM с гарантированными характеристиками производительности и описываем оптимальное решение вблизи функциональных отображений, что дает значительные теоретические инсайты в структурную сложность этой задачи. Более того, мы демонстрируем практическое применение MEC-B через эксперименты в играх с марковским кодированием (MCGs) при ограничениях на скорость передачи. Эти игры симулируют сценарий общения в рамках марковского процесса принятия решений, где агент должен передать сжатое сообщение от отправителя получателю через свои действия. Наши эксперименты выявляют компромиссы между вознаграждениями MDP и точностью получателя на различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с традиционными базовыми методами сжатия.