Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "correlation"

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

Обнаружение и смягчение ложных корреляций в моделях обработки изображений и языка

Модели, объединяющие зрение и язык (VLM), которые были тонко настроены, часто улавливают ложные корреляции между чертами изображения и текстовыми атрибутами, что приводит к снижению эффективности нулевого шага на этапе тестирования. Существующие методы для устранения ложных корреляций (i) в основном работают на уровне всего изображения, а не вмешиваются непосредственно в детализированные черты изображения, и (ii) в большинстве своем разработаны для одномодальных условий. В данной работе мы представляем RaVL, который рассматривает устойчивость VLM с детализированной точки зрения, обнаруживая и устраняя ложные корреляции с использованием локальных черт изображения, а не работая на уровне всего изображения. При наличии тонко настроенной VLM, RaVL сначала обнаруживает ложные корреляции, используя подход кластеризации на уровне регионов для выявления точных черт изображения, способствующих ошибкам нулевого шага в классификации. Затем, RaVL устраняет выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, которая позволяет VLM сосредоточиться на релевантных областях и игнорировать ложные связи во время тонкой настройки. Мы оцениваем RaVL на 654 VLM с различными архитектурами моделей, областями данных и изученными ложными корреляциями. Наши результаты показывают, что RaVL точно обнаруживает (улучшение на 191% по сравнению с ближайшим базовым уровнем) и устраняет (улучшение на 8.2% по точности классификации в худшей группе изображений) ложные корреляции. Качественные оценки на VLM общего назначения и медицинской области подтверждают наши выводы.

Связь между точностью обнаружения объектов, визуальной салиентностью и оценкой глубины

По мере развития методов обнаружения объектов, понимание их взаимосвязей с комплементарными визуальными задачами становится критически важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя основными визуальными задачами: предсказанием глубины и предсказанием визуальной значимости. Через обширные эксперименты с использованием моделей последнего поколения (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC, мы обнаружили, что визуальная значимость демонстрирует более сильные корреляции с точностью обнаружения объектов (mArho до 0.459 на Pascal VOC), по сравнению с предсказанием глубины (mArho до 0.283). Наш анализ выявил значительные вариации этих корреляций между категориями объектов, где большие объекты показывают значения корреляции в три раза выше, чем маленькие объекты. Эти результаты предполагают, что включение признаков визуальной значимости в архитектуры обнаружения объектов может быть более выгодным, чем информация о глубине, особенно для определённых категорий объектов. Обнаруженные вариации, специфичные для категорий, также предоставляют понимание для целенаправленной инженерии признаков и улучшений в дизайне наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.

Изучение видео представлений без использования натуральных видео

В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.