Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "autoregressive"

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В обучении визуомоторной политики с помощью роботов модели на основе диффузии добились значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких шагов денойзинга и ограниченной гибкости из-за сложных ограничений. В этой статье мы представляем метод Coarse-to-Fine AutoRegressive Policy (CARP) — новую парадигму для обучения визуомоторной политики, которая переопределяет процесс генерации действий авторегрессии как подход «грубого в тонкое» на следующем уровне. CARP декомпозирует генерацию действий на два этапа: сначала автоэнкодер действий обучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет предсказание последовательности через авторегрессивный процесс «грубого в тонкое». Этот простой и интуитивно понятный подход производит высокоточные и плавные действия, соответствуя или даже превосходя производительность политик на основе диффузии, при этом сохраняя эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных условиях, включая сценарии одиночных и многозадачных задач на основе состояния и изображений, а также в реальных задачах. CARP достигает конкурентоспособных показателей успеха с улучшением до 10% и обеспечивает в 10 раз более быструю инференцию по сравнению с современными политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в роботизированных задачах.

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.