Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "pre-training"

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Оценка качества изображения для областей интереса с использованием инструкционной настройки видео-языковых моделей

Существующие методы оценки качества изображения (IQA) достигли значительных успехов в анализе качества целого изображения, однако немногие работы исследуют анализ качества для областей интереса (ROIs). Анализ качества ROIs может предоставить детальные рекомендации для улучшения качества изображения и является ключевым для сценариев, ориентированных на качество на уровне регионов. В данной статье предлагается новая сеть, SEAGULL, которая может видеть и оценивать качество ROIs с использованием руководства от большой модели "видение-язык". SEAGULL включает модель "видение-язык" (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для указания ROIs, и тщательно разработанный экстрактор признаков на основе масок (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, что позволяет выполнять точную оценку качества на уровне ROIs. Более того, в статье созданы два набора данных IQA на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки IQA на основе ROIs. SEAGULL-100w содержит около 100 тысяч синтетических искаженных изображений с 33 миллионами ROIs для предобучения, чтобы улучшить способность модели воспринимать качество регионов, а SEAGULL-3k включает около 3 тысяч реальных искаженных ROIs для повышения способности модели воспринимать реальные искажения. После предобучения на SEAGULL-100w и дообучения на SEAGULL-3k, SEAGULL демонстрирует выдающиеся результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны по адресу https://github.com/chencn2020/Seagull.

iqavlmroi

SlimLM: Эффективная Малая Языковая Модель для Документальной Помощи на Мобильных Устройствах

В то время как небольшие языковые модели (SLMs) показывают перспективы для развертывания на мобильных устройствах, их реальная производительность и применение на смартфонах остаются недостаточно изученными. Мы представляем SlimLM, серию SLMs, оптимизированных для задач помощи с документами на мобильных устройствах. Проведя обширные эксперименты на Samsung Galaxy S24, мы определили оптимальный баланс между размером модели (от 125 миллионов до 7 миллиардов параметров), длиной контекста и временем вывода для эффективной обработки на устройстве. SlimLM предварительно обучена на SlimPajama-627B и дообучена на DocAssist, нашем собственном наборе данных для задач по суммаризации, ответам на вопросы и предложениям. Наша наименьшая модель демонстрирует эффективную работу на S24, в то время как более крупные варианты предлагают улучшенные возможности в рамках мобильных ограничений. Мы сравнили SlimLM с существующими SLMs, показав сопоставимую или превосходящую производительность, и предоставили эталон для будущих исследований в области языковых моделей, работающих на устройствах. Мы также предоставляем Android-приложение, дающее практические представления о развертывании SLM. Наши выводы предоставляют ценные инсайты и освещают возможности использования продвинутых языковых моделей на высококлассных смартфонах, что потенциально снижает серверные затраты и улучшает конфиденциальность за счет обработки на устройстве.

Изучение видео представлений без использования натуральных видео

В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.