Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "transformers"

ChatDiT: Новый Подход к Генерации Изображений с Использованием Диффузионных Трансформеров

Недавние исследования arXiv:2410.15027 arXiv:2410.23775 подчеркивают присущие возможности генерации в контексте предобученных диффузионных трансформеров (DiTs), позволяя им бесперебойно адаптироваться к различным визуальным задачам с минимальными или без архитектурных модификаций. Эти возможности открываются благодаря конкатенации токенов самовнимания по нескольким входным и целевым изображениям, в сочетании с сгруппированными и замаскированными генерационными конвейерами. Исходя из этой базы, мы представляем ChatDiT - универсальную интерактивную рамку визуального генерации, которая использует предобученные диффузионные трансформеры в их исходной форме, не требуя дополнительной настройки, адаптеров или модификаций. Пользователи могут взаимодействовать с ChatDiT, чтобы создавать чередующиеся текстово-изображенческие статьи, многослойные книжки с картинками, редактировать изображения, разрабатывать производные объекты ИП или разрабатывать настройки дизайна персонажей, все это с помощью свободной естественной речи в одном или нескольких раундах общения. В своей основе ChatDiT использует систему многопользовательских агентов, состоящую из трех ключевых компонентов: агента разбора инструкций, который интерпретирует загруженные пользователем изображения и инструкции, агента планирования стратегии, который разрабатывает одноступенчатые или многоступенчатые генерационные действия, и агента исполнения, который выполняет эти действия с использованием встроенного набора инструментов диффузионных трансформеров. Мы тщательно оцениваем ChatDiT на IDEA-Bench arXiv:2412.11767, состоящем из 100 реальных дизайнерских задач и 275 случаев с разнообразными инструкциями и различным количеством входных и целевых изображений. Несмотря на свою простоту и безтренировочный подход, ChatDiT превосходит всех конкурентов, включая тех, кто специально разработан и обучен на обширных многозадачных наборах данных. Мы также выявляем ключевые ограничения предобученных DiT в нулевой адаптации к задачам. Мы публикуем весь код, агентов, результаты и промежуточные выходы, чтобы способствовать дальнейшим исследованиям на https://github.com/ali-vilab/ChatDiT.

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, аудио, видео). В этой работе мы предлагаем Моделирование Языка в Скрытом Пространстве (Latent Language Modeling, LatentLM), которое бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. В частности, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде скрытых векторов и вводим диффузию следующего токена для авторегрессионной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE, чтобы решить проблемы коллапса дисперсии, что имеет решающее значение для авторегрессионного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодальные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает положительных результатов по сравнению с Transfusion и векторизованными моделями в контексте увеличения токенов для обучения. В синтезе текста в речь LatentLM превосходит передовую модель VALL-E 2 по сходству с говорящим иrobustness, при этом требуя на 10 раз меньше шагов декодирования. Результаты подтверждают, что LatentLM является высокоэффективным и масштабируемым подходом для продвижения больших мультимодальных моделей.

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.

HARP: Улучшение производительности языковых моделей с помощью осведомленности о колебаниях и переосмысления

Эта работа нацелена на улучшение производительности больших языковых моделей, устраняя переменные вычислительные требования на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP — простую модификацию прямого прохода трансформеров "с полки". Опираясь на колебания и эффект кадрирования в процессе принятия решений, HARP избирательно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь в сложные моменты принятия решений и переформулируя ввод для получения другой перспективы. В отличие от других подходов, HARP является независимым от модели, не требует обучения и прост в реализации. Мы тщательно оцениваем наш метод по различным конечным задачам и размерам моделей, демонстрируя улучшения производительности до +5,16%. Примечательно, что HARP достигает этих успехов, сохраняя время вывода в два раза быстрее, чем метод «лестницы». Простой и в то же время приносящий значительные преимущества, HARP предлагает практическое решение для повышения производительности языковых моделей на основе трансформеров с минимальным вычислительным влиянием.

GatedDeltaNet: Новая архитектура для улучшения моделей LLM

Линейные трансформеры привлекли внимание как эффективные альтернативы стандартным трансформерам, но их производительность в задачах поиска и длинного контекста была ограниченной. Чтобы преодолеть эти ограничения, недавние исследования исследовали два различных механизма: управление адаптивной памятью с помощью гейтов и правило обновления дельты для точных модификаций памяти. Мы наблюдаем, что эти механизмы являются взаимодополняющими: гейты обеспечивают быструю стерилизацию памяти, в то время как правило дельты облегчает целенаправленные обновления. Основываясь на этом понимании, мы вводим правило гейта дельты и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, по нескольким бенчмаркам, включая языковое моделирование, рассуждения на основе общего смысла, поиск в контексте, экстраполяцию длины и понимание длинного контекста. Мы также повышаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием в скользящем окне или слоями Mamba2, достигая как повышенной эффективности обучения, так и превосходных результатов по задачам.

KV-Shifting Attention: Новая Эра в Языковом Моделировании

Современные крупные языковые модели в основном основаны на структуре трансформеров только декодирования, которые обладают отличными способностями к обучению в контексте (ICL). Общее мнение заключается в том, что важной основой её способности ICL является механизм индукционных голов, который требует как минимум два слоя внимания. Чтобы более эффективно реализовать способность индукции модели, мы пересматриваем механизм индукционных голов и предлагаем внимание с перемещением KV. Мы теоретически доказываем, что внимание с перемещением KV снижает требования модели к глубине и ширине механизма индукционных голов. Наши экспериментальные результаты демонстрируют, что внимание с перемещением KV благоприятно сказывается на обучении индукционных голов и языковом моделировании, что приводит к лучшей производительности или более быстрой сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 миллиардами параметров.

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

TinyFusion: Ускорение диффузионных трансформеров с помощью обрезки слоев

Диффузионные трансформаторы продемонстрировали выдающиеся способности в генерации изображений, но часто имеют чрезмерную параметризацию, что приводит к значительным накладным расходам на вывод в реальных приложениях. В этой работе мы представляем TinyFusion — метод обрезки глубины, предназначенный для удаления избыточных слоев из диффузионных трансформаторов с помощью обучения от начала до конца. Основной принцип нашего подхода заключается в создании обрезанной модели с высокой восстановимостью, что позволяет ей восстанавливать высокую производительность после дообучения. Для этого мы представляем дифференцируемую технику выборки, чтобы сделать обрезку обучаемой, в паре с совместно оптимизируемым параметром для имитации будущего дообучения. В то время как предыдущие работы сосредотачиваются на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после дообучения. Экспериментальные результаты показывают, что эта обучаемая парадигма предлагает значительные преимущества для обрезки слоев диффузионных трансформаторов, превосходя существующие методы, основанные на важности и ошибках. Кроме того, TinyFusion демонстрирует сильную генерализацию на различных архитектурах, таких как DiT, MAR и SiT. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформатор с затратами менее 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с индексом FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

Генерация видео с сохранением идентичности на основе текста: концепция ConsisID

Генерация текстов в видео с сохранением идентичности (IPT2V) нацелена на создание видеороликов высокой четкости с последовательной человеческой идентичностью. Это важная задача в генерации видео, но остается нерешенной проблемой для генеративных моделей. Эта статья продвигает технические границы IPT2V в двух направлениях, которые не были рассмотрены в литературе: (1) Пайплайн без необходимости настройки без утомительной подгонки, и (2) Частотно-осознанная эвристическая схема управления, сохраняющая идентичность, основанная на DiT. Мы предлагаем ConsisID, контролируемую модель IPT2V на основе DiT без настройки, чтобы сохранить человеческую идентичность в сгенерированном видео. Вдохновленные предыдущими находками в частотном анализе диффузионных трансформеров, мы используем сигналы управления идентичностью в частотной области, где характеристики лица могут быть разложены на низкочастотные глобальные особенности и высокочастотные внутренние особенности. Во-первых, с точки зрения низкой частоты мы представляем глобальный экстрактор лица, который кодирует эталонные изображения и ключевые точки лица в латентное пространство, генерируя особенности, обогащенные информацией низкой частоты. Эти характеристики затем интегрируются в поверхностные слои сети, чтобы облегчить проблемы обучения, связанные с DiT. Во-вторых, с точки зрения высокой частоты мы разрабатываем локальный экстрактор лица, чтобы захватить детали высокой частоты и внедрить их в блоки трансформера, улучшая способность модели сохранять детализированные особенности. Мы предлагаем иерархическую стратегию обучения для использования частотной информации для сохранения идентичности, преобразовывая обычную предобученную модель генерации видео в модель IPT2V. Обширные эксперименты демонстрируют, что наша частотно-осознанная эвристическая схема обеспечивает оптимальное решение для моделей на основе DiT. Благодаря этой схеме, наш ConsisID генерирует высококачественные видео с сохранением идентичности, делая шаги к более эффективному IPT2V.

Лучшее из двух миров: преимущества гибридных моделей граф-секвенция

Современные модели последовательностей (например, трансформеры, линейные РНС и т.д.) вышли на передовые позиции в последних фреймворках глубокого обучения, в основном благодаря своей эффективности, способности к представлению данных и/или возможности захвата дальних зависимостей. Применение этих моделей последовательностей к данным с графовой структурой недавно стало популярным как альтернатива Сетям с Передачей Сообщений (MPNN). Однако, существует недостаток общих основ относительно того, что делает модель последовательности графа хорошей, а также математического описания преимуществ и недостатков использования различных моделей последовательностей для обучения на графах. В этом направлении мы сначала представляем Модель Последовательностей Графов (GSM), единую платформу для адаптации моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное Кодирование, которое кодирует локальные окрестности вокруг каждой вершины; и (3) Глобальное Кодирование, которое использует масштабируемую модель последовательности для захвата дальних зависимостей в последовательностях. Эта платформа позволяет нам понимать, оценивать и сравнивать мощность различных базовых моделей последовательностей в задачах с графами. Наши теоретические оценки представительной способности трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач графов показывают, что существуют как положительные, так и отрицательные стороны для обоих типов моделей. Опираясь на это наблюдение, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм Иерархического Аффинного Кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают дизайн GSM++, показывая, что GSM++ превосходит базовые модели в большинстве тестов на эталонных примерах.

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.