Ай Дайджест - категория visual

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

2024-12-11diffusion transformer autoregressive

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

2024-12-10diffusion generation dataset

Negative Token Merging: Новые горизонты в управлении генерацией изображений

Текстовая адверсариальная направленность с использованием отрицательного запроса стала широко распространенным подходом для отдаления выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение адверсариального управления только с помощью текста может быть недостаточным для захвата сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя адверсариальное руководство непосредственно с использованием визуальных характеристик из эталонного изображения или других изображений в партии. В частности, мы представляем объединение отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который выполняет адверсариальное руководство, выборочно раздвигая совпадающие семантические характеристики (между эталоном и выходным генерацией) в процессе обратной диффузии. При использовании в отношении других изображений из той же партии мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное) без ущерба для качества выходного изображения. Аналогично, при использовании в отношении защищенного авторским правом актива по эталону, NegToMe помогает уменьшить визуальное сходство с защищенным контентом на 34,57%. NegToMe просто реализуется с использованием всего нескольких строк кода, использует лишь незначительно большее (<4%) время вывода и обобщается на разные архитектуры диффузии, такие как Flux, которые изначально не поддерживают использование отдельного отрицательного запроса. Код доступен по адресу https://negtome.github.io

2024-12-06guidance diffusion diversity

AV-OdysseyBench: Понимают ли ваши мультимодальные LLM действительно аудиовизуальную информацию?

Недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включая визуальные и аудиомодальности. Хотя эти модели демонстрируют впечатляющие результаты в широком спектре аудиовизуальных приложений, наш предложенный DeafTest показывает, что MLLM часто испытывают трудности с простыми задачами, которые люди считают тривиальными: 1) определить, какой из двух звуков громче, и 2) определить, какой из двух звуков имеет более высокий тон. Мотивированные этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов. Чтобы обеспечить точную и объективную оценку ответов MLLM, мы структурировали вопросы в формате множественного выбора, что устраняет необходимость в человеческой оценке или оценке с помощью LLM. Мы оцениваем ряд закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезную информацию для будущего сбора данных и разработки моделей.

2024-12-04multimodal benchmark audio

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

2024-11-05visual benchmark video