Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "transformer"

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

В многомодальных больших языковых моделях (MLLM) широко используются визуальные трансформеры (ViT) для визуального кодирования. Однако их производительность при решении универсальных задач MLLM оставляет желать лучшего. Мы связываем это с нехваткой информации из разнообразных визуальных уровней, что мешает согласованию с различной семантической гранулярностью, необходимой для генерации языка. Чтобы решить эту проблему, мы представляем LLaVA-UHD v2, усовершенствованную MLLM, сосредоточенную вокруг иерархического оконного трансформера, который позволяет захватывать разнообразную визуальную гранулярность, конструируя и интегрируя пирамиду признаков высокого разрешения. В качестве проектировщика зрения и языка трансформер Hiwin включает два основных модуля: (i) обратная пирамида признаков, построенная с помощью процесса увеличения признаков, производного от ViT, с использованием высокочастотных деталей из пирамиды изображений, и (ii) иерархическое внимание окон, сосредоточенное на наборе ключевых признаков выборки в окнах разных масштабов, чтобы конденсировать многоуровневые карты признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных контрольных точках. Особенно примечательно, что наш дизайн обеспечивает среднее увеличение на 3,7% по 14 контрольным показателям по сравнению с базовым методом, в частности, на 9,3% на DocVQA. Мы сделали все данные, контрольную точку модели и код общедоступными, чтобы облегчить будущие исследования.

Эмердженция абстракций: механизм кодирования и декодирования концептов для обучения в контексте в трансформерах

Люди дистиллируют сложные переживания в основные абстракции, которые позволяют быстрому обучению и адаптации. Аналогично, авторегрессивные трансформеры демонстрируют адаптивное обучение через обучение в контексте (ICL), что ставит вопрос о том, как. В этой статье мы предлагаем механизм кодирования-декодирования концепций, чтобы объяснить ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения малого трансформера и сообщаем о сопутствующем возникновении кодирования и декодирования концепций. Поскольку модель учится кодировать разные латентные концепции (например, "Поиск первого существительного в предложении.") в разные, отделимые представления, она одновременно строит условные алгоритмы декодирования и улучшает свою производительность ICL. Мы подтверждаем наличие этого механизма на предобученных моделях различного масштаба (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Далее, через механистические интервенции и контролируемую тонкую настройку, мы демонстрируем, что качество кодирования концепции причинно связано и предсказуемо для производительности ICL. Наши эмпирические выводы проливают свет на лучшее понимание успеха и режима неудач больших языковых моделей через их представления.

ByteLatentTransformer: Новая эра в архитектуре LLM

Мы представляем Byte Latent Transformer (BLT) — новую архитектуру LLM на уровне байтов, которая впервые достигает производительности LLM на основе токенизации в масштабе с существенными улучшениями в эффективности вывода и надежности. BLT кодирует байты в патчи динамического размера, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных мощностей и возможностей модели там, где необходимость в увеличении сложности данных требует этого. Мы представляем первое исследование о масштабировании моделей на уровне байтов с контролируемым количеством операций с плавающей запятой (FLOP) до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Эффективность как обучения, так и вывода улучшается благодаря динамическому выбору длинных патчей, когда данные предсказуемы, наряду с качественными улучшениями в способности к рассуждению и обобщению в условиях длинного хвоста. В целом, при фиксированных затратах на вывод, BLT демонстрирует значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патчей, так и размер модели.

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Мы рассматриваем проблему оценки целевого взгляда, которая направлена на предсказание того, куда смотрит человек в сцене. Для предсказания целевого взгляда человека требуется рассуждение как о внешнем виде человека, так и о содержании сцены. Ранее разработанные работы создали все более сложные ручные схемы для оценки целевого взгляда, которые тщательно объединяют признаки из различных кодировщиков сцен, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и положение. Побуждаемые успехом универсальных экстракторов признаков в различных визуальных задачах, мы предлагаем Gaze-LLE — новую трансформерную структуру, которая упрощает оценку целевого взгляда, используя признаки из замороженного DINOv2 кодировщика. Мы извлекаем одно представление признака для сцены и применяем специфичный для человека позиционный запрос для декодирования взгляда с помощью легковесного модуля. Мы демонстрируем передовые достижения в нескольких бенчмарках по оценке взгляда и предоставляем обширный анализ для проверки наших проектных решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

Mogo: Иерархический Каскадный Трансформер для Генерации 3D Движений Человека

В области генерации текста в движение модели маскированного типа Bert (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с автогенеративными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто не обладают возможностью потокового вывода, необходимой для применения в видеоиграх и мультимедийных средах, что является внутренней особенностью моделей типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Чтобы превзойти качество моделей типа BERT, используя структуру типа GPT, не добавляя дополнительных моделей уточнения, которые усложняют масштабирование данных, мы предлагаем новую архитектуру Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные 3D движения человека, обучая единственную модель трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический резидульный векторный квантизационный вариационный автокодировщик, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический каузальный трансформер, отвечающий за генерирование базовых последовательностей движения авторегрессивным способом, одновременно выводя остатки через разные слои. Экспериментальные результаты демонстрируют, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превышая ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе HumanML3D Mogo достигает FID-оценки 0.079, превышая как модель типа GPT T2M-GPT (FID = 0.116), так и AttT2M (FID = 0.112), а также модель типа BERT MMM (FID = 0.080). Более того, наша модель демонстрирует лучшее количественное выполнение в генерации вне распределения.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

EMOv2: Прорыв в легковесных моделях компьютерного зрения

Эта работа сосредоточена на разработке параметрически эффективных и легковесных моделей для плотных предсказаний, балансируя между параметрами, FLOPs и производительностью. Наша цель — установить новую границу легковесной модели величиной 5M на различных downstream задачах. Инвертированный residual блок (IRB) служит инфраструктурой для легковесных CNN, но аналогов с учетом внимания не было признано. Наша работа переосмысливает легковесную инфраструктуру эффективного IRB и практические компоненты в Transformer с единой точки зрения, расширяя основанный на CNN IRB для моделей, основанных на внимании, и абстрагируя один residual Meta Mobile Block (MMBlock) для проектирования легковесных моделей. Следуя аккуратным, но эффективным критериям проектирования, мы выводим современный улучшенный инвертированный residual мобильный блок (i2RMB) и улучшаем иерархическую эффективную модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей в сетях 4G/5G и обеспечивая производительность моделей, мы исследуем предельную производительность легковесных моделей с масштабом 5M. Обширные эксперименты по различным задачам распознавания образов, плотного предсказания и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами; например, EMOv2-1M/2M/5M достигает 72.3, 75.8 и 79.4 Top-1, что значительно превышает аналогичные CNN-/Attention-модели. В то же время EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP для задач обнаружения объектов, что на +2.6 превышает предыдущий EMO-5M. При использовании более надежного рецепта обучения наш EMOv2-5M в конечном итоге достигает 82.9 Top-1 точности, что поднимает производительность моделей величиной 5M на новый уровень. Код доступен по адресу https://github.com/zhangzjn/EMOv2.

CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В обучении визуомоторной политики с помощью роботов модели на основе диффузии добились значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких шагов денойзинга и ограниченной гибкости из-за сложных ограничений. В этой статье мы представляем метод Coarse-to-Fine AutoRegressive Policy (CARP) — новую парадигму для обучения визуомоторной политики, которая переопределяет процесс генерации действий авторегрессии как подход «грубого в тонкое» на следующем уровне. CARP декомпозирует генерацию действий на два этапа: сначала автоэнкодер действий обучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет предсказание последовательности через авторегрессивный процесс «грубого в тонкое». Этот простой и интуитивно понятный подход производит высокоточные и плавные действия, соответствуя или даже превосходя производительность политик на основе диффузии, при этом сохраняя эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных условиях, включая сценарии одиночных и многозадачных задач на основе состояния и изображений, а также в реальных задачах. CARP достигает конкурентоспособных показателей успеха с улучшением до 10% и обеспечивает в 10 раз более быструю инференцию по сравнению с современными политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в роботизированных задачах.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

p-MoD: Эффективные Мультимодальные Большие Языковые Модели

Несмотря на выдающиеся результаты многомодальных больших языковых моделей (MLLM) в различных задачах, значительные затраты на обучение и вывод мешают их развитию. Большая часть вычислений связана с огромным объемом визуальных токенов, обрабатываемых декодером трансформера. В этой статье мы предлагаем создавать эффективные MLLM, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визуальные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLM не является тривиальной задачей. Чтобы справиться с проблемами стабильности обучения и вывода, а также ограниченными данными для обучения, мы адаптируем модуль MoD с помощью двух новых разработок: тангентально-контролируемой нормализации весов (TanhNorm) и симметричного переобучения токенов (STRing). Более того, мы наблюдаем, что визуальные токены проявляют более высокую избыточность в более глубоких слоях, и, следовательно, разрабатываем стратегию прогрессивного уменьшения соотношения (PRD), которая постепенно сокращает коэффициент удержания токенов слой за слоем, используя смещенный косинусный график. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно увеличивая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями по 14 контрольным точкам. Наша модель, p-MoD, сравнивается или даже превосходит производительность базовых моделей, при этом затрачивая всего 55,6% TFLOPs и 53,8% хранения кэша KV во время вывода и 77,7% GPU-часов во время обучения.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

Эффективное отслеживание объектов в видео с помощью EfficientTrackAnything

Модель Segment Anything Model 2 (SAM 2) зарекомендовала себя как мощный инструмент для сегментации объектов в видео и отслеживания всего. Ключевыми компонентами SAM 2, которые обеспечивают впечатляющие результаты сегментации видеообъектов, являются большой многоступенчатый энкодер изображений для извлечения характеристик кадров и механизм памяти, который хранит контексты памяти из прошлых кадров, чтобы помочь сегментации текущего кадра. Высокая вычислительная сложность многоступенчатого энкодера изображений и модуля памяти ограничила его применение в реальных задачах, например, в сегментации видеообъектов на мобильных устройствах. Для решения этой проблемы мы предлагаем EfficientTAMs, легковесные модели отслеживания всего, которые обеспечивают высококачественные результаты с низкой задержкой и небольшим размером модели. Наша идея основана на пересмотре простого, неиерархического Vision Transformer (ViT) в качестве энкодера изображений для сегментации объектов в видео, а также на введении эффективного модуля памяти, который уменьшает сложность как для извлечения характеристик кадров, так и для вычисления памяти для сегментации текущего кадра. Мы берем ванильные легковесные ViTs и эффективный модуль памяти для построения EfficientTAMs и тренируем модели на наборах данных SA-1B и SA-V для задач сегментации объектов в видео и отслеживания всего. Мы оцениваем несколько бенчмарков сегментации видео, включая полусупервизированную VOS и запрашиваемую сегментацию видео, и находим, что наша предложенная EfficientTAM с ванильным ViT демонстрирует сопоставимые результаты с моделью SAM 2 (HieraB+SAM 2) с ускорением примерно в 2 раза на A100 и сокращением параметров примерно на 2,4 раза. В задачах сегментации изображений с учетом всего, наши EfficientTAM также показывают лучшие результаты по сравнению с оригинальной SAM с ускорением примерно в 20 раз на A100 и сокращением параметров примерно на 20 раз. На мобильных устройствах, таких как iPhone 15 Pro Max, наши EfficientTAM могут работать со скоростью около 10 FPS для выполнения сегментации объектов в видео с разумным качеством, подчеркивая возможности маленьких моделей для приложений сегментации объектов в видео на устройстве.

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.

Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством

Токенизация речи с помощью нейронных аудиокодеков является важной частью современных AI-пipelines для генерации или понимания речи, как отдельно, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредоточивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными предвзятостями. В данной работе мы показываем, что, увеличивая архитектуру трансформера с большим количеством параметров для решения этой задачи и применяя гибкое ограничение на конечную скалярную квантизацию (FSQ), можно достичь качества речи на уровне передовых технологий при крайне низких битовых скоростях 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые линии как в объективных, так и в субъективных тестах.

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

Факторизованная визуальная токенизация и генерация

Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на базе трансформеров превосходно справляться с генерацией изображений. Несмотря на их успех, токенизаторы на основе векторного квантования (VQ), такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченных размеров словаря. Простое расширение кодбука часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованное Квантование (FQ), новый подход, который оживляет токенизаторы на основе VQ, разлагая большой кодбук на несколько независимых подкодбуков. Это разложение уменьшает сложность поиска в больших кодбуках, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы каждый подкодбук захватывал различную и дополняющую информацию, мы предлагаем регуляризацию разъединения, которая явно снижает избыточность, способствуя разнообразию среди подкодбуков. Более того, мы интегрируем обучение представлений в процесс обучения, используя предобученные модели видения, такие как CLIP и DINO, для придания семантической насыщенности изучаемым представлениям. Эта конструкция обеспечивает, что наш токенизатор захватывает разнообразные семантические уровни, что приводит к более выразительным и разъединенным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовых результатов. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для автопрогрессивной генерации изображений. [Ссылка на проект](https://showlab.github.io/FQGAN)

Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одно из перспективных направлений - разработка токенизатора, способного кодировать длинные видеофрагменты, что позволило бы токенизатору лучше использовать временную когерентность видео для токенизации. Однако, обучение существующих токенизаторов на длинных видео часто влечет за собой огромные затраты на обучение, так как они обучены на восстановлении всех кадров одновременно. В данной статье мы представляем CoordTok, токенизатор видео, который учится преобразовывать представления на основе координат в соответствующие патчи входных видео, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в фрагментированные трехплоскостные представления и восстанавливает патчи, соответствующие случайно выбранным координатам (x,y,t). Это позволяет обучать большие модели токенизаторов непосредственно на длинных видео без необходимости в чрезмерных ресурсах для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов, необходимых для кодирования длинных видеофрагментов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128x128 в 1280 токенов, тогда как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества восстановления. Мы также показываем, что такая эффективная токенизация видео позволяет проводить обучение диффузионного трансформера, который может генерировать 128 кадров одновременно, экономя память.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

UltraMem: Сверхразреженная память для языковых моделей

Широко признано, что производительность моделей Transformer экспоненциально связана с количеством их параметров и вычислительной сложностью. Хотя подходы, такие как "Смесь экспертов" (MoE), разделяют количество параметров и вычислительную сложность, они все еще сталкиваются с проблемами при инференции из-за высоких затрат на доступ к памяти. Эта работа представляет UltraMem, который включает крупномасштабный, ультраразреженный слой памяти для решения этих ограничений. Наш подход значительно снижает задержку инференции, при этом сохраняя производительность модели. Мы также исследуем законы масштабирования этой новой архитектуры, демонстрируя, что она не только обладает благоприятными свойствами масштабирования, но и превосходит традиционные модели. В наших экспериментах мы обучаем сети с количеством слотов памяти до 20 миллионов. Результаты показывают, что наш метод достигает рекордной скорости инференции и производительности модели в рамках заданного вычислительного бюджета.

Гимба: Архитектура с гибридными головами для малых языковых моделей

Мы представляем Hymba, семейство небольших языковых моделей, использующих гибридную параллельную архитектуру голов, которая интегрирует механизмы внимания трансформеров с моделями состояния пространства (SSM) для повышения эффективности. Головы внимания обеспечивают высокую разрешающую способность воспоминаний, в то время как головы SSM позволяют эффективно обобщать контекст. Кроме того, мы вводим обучаемые мета-токены, которые добавляются в начале запросов, хранят критическую информацию и снижают "вынужденное внимание", связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения обмена ключ-значение (KV) между слоями и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В процессе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и наблюдали значительные преимущества нашей предложенной архитектуры. В частности, Hymba достигает рекордных результатов среди малых языковых моделей: наша модель Hymba-1.5B-Base превосходит все публичные модели с менее чем 2 миллиардами параметров по производительности и даже превосходит Llama-3.2-3B с на 1.32% выше средней точностью, уменьшением размера кэша в 11.67 раз и увеличением пропускной способности в 3.49 раза.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

FitDiT: Прорыв в Виртуальной Примерке с Учетом Деталей и Размеров Одежды

Хотя технология виртуальной примерки на основе изображений достигла значительного прогресса, новые подходы все еще сталкиваются с вызовами при создании высококачественных и надежных изображений подгонки в разных сценариях. Эти методы часто испытывают трудности с такими аспектами, как сохранение текстуры и подгонка по размеру, что ограничивает их общую эффективность. Для решения этих проблем мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для высокоточной виртуальной примерки с использованием Diffusion Transformers (DiT), которые выделяют больше параметров и внимания на высокоразрешенные характеристики. Во-первых, для дальнейшего улучшения сохранения текстуры мы вводим экстрактор текстуры одежды, который включает в себя эволюцию приоритетов одежды для тонкой настройки характеристик одежды, что помогает лучше улавливать богатые детали, такие как полоски, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения деталей одежды с высокой частотой. Для решения проблемы подгонки по размеру мы используем стратегию расширенной-расслабленной маски, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю маскированную область при примерке через категории. Оснащенный вышеуказанным дизайном, FitDiT превосходит все базовые модели как по качественным, так и по количественным оценкам. Он превосходно справляется с созданием хорошо сидящей одежды с фотореалистичными и сложными деталями, при этом достигая конкурентоспособных времен вывода 4.57 секунды для одного изображения 1024x768 после оптимизации структуры DiT, превосходя существующие методы.

StdGEN: Генерация 3D персонажей с семантическим разложением из одной изображения

Мы представляем StdGEN, инновационный конвейер для создания семантически разложенных высококачественных 3D-персонажей из отдельных изображений, что открывает широкие возможности для использования в виртуальной реальности, играх и кинопроизводстве и т.д. В отличие от предыдущих методов, которые сталкивались с ограниченной разложимостью, неудовлетворительным качеством и долгим временем оптимизации, StdGEN обладает разложимостью, эффективностью и производительностью; то есть он создает детализированные 3D-персонажи с разделёнными семантическими компонентами, такими как тело, одежда и волосы, за три минуты. В основе StdGEN лежит наша предложенная модель Semantic-aware Large Reconstruction Model (S-LRM), обобщаемая модель на основе трансформеров, которая одновременно реконструирует геометрию, цвет и семантику из многоплановых изображений в прямом проходе. Введена дифференцируемая многослойная схема извлечения семантических поверхностей для получения мешей из гибридных неявных полей, восстановленных нашей S-LRM. Кроме того, в конвейер интегрированы специализированная эффективная модель многоплановой диффузии и модуль итеративного многослойного уточнения поверхности, что способствует созданию высококачественных, разложимых 3D-персонажей. Обширные эксперименты демонстрируют наши передовые результаты в создании 3D-персонажей аниме, значительно превосходя существующие базовые модели по геометрии, текстуре и разложимости. StdGEN предлагает готовые к использованию семантически разложенные 3D-персонажи и позволяет гибкую настройку для широкого спектра приложений. Страница проекта: https://stdgen.github.io

Балансировка параллелизма конвейера с параллелизмом словаря

Параллелизм конвейера широко используется для масштабирования обучения крупных языковых моделей на базе трансформеров; различные работы были проведены для улучшения его пропускной способности и объема памяти. В данной статье мы рассматриваем часто упускаемую из виду проблему: слои словаря могут вызывать несбалансированное использование вычислительных ресурсов и памяти на различных этапах конвейера, что усугубляет проблемы с "пузырями" конвейера и узкими местами памяти. Чтобы решить эту проблему, мы равномерно распределяем слои словаря по устройствам конвейера и группируем вычисления в проходы конвейера. Для уменьшения накладных расходов на память активации мы предлагаем несколько алгоритмов для снижения барьеров коммуникации внутри слоев словаря. Кроме того, мы используем обобщенный метод для интеграции параллелизма словаря с существующими расписаниями конвейера. Сочетая эти методы, наши подходы эффективно балансируют вычисления и память параметров с небольшим постоянным накладным расходом на память активации. Особо следует отметить, что при сочетании с расписаниями, балансирующими память активаций, такими как V-Half, наш подход достигает идеального баланса как по памяти, так и по вычислениям. Обширные оценки показывают, что наш метод обеспечивает баланс вычислений и памяти независимо от размера словаря, что приводит к улучшению пропускной способности на 5% до 51% по сравнению с наивными подходами, одновременно значительно снижая пиковое использование памяти, особенно в сценариях с большим словарём. Наша реализация доступна в открытом доступе по адресу https://github.com/sail-sg/VocabularyParallelism.

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.

Hunyuan-Large: Продвижение в области Моделей с Смесью Экспертов

В данной статье мы представляем модель Hunyuan-Large, которая на данный момент является крупнейшей открытой моделью, основанной на Transformer, с использованием технологии смешения экспертов. Она включает в себя 389 миллиардов параметров и 52 миллиарда параметров активации, способную обрабатывать до 256 тысяч токенов. Мы провели тщательную оценку превосходной производительности Hunyuan-Large по различным тестам, включая понимание и генерацию языка, логическое рассуждение, решение математических задач, программирование, задачи с длинным контекстом и агрегированные задачи, где она превосходит модель LLama3.1-70B и показывает сопоставимую производительность с значительно большей моделью LLama3.1-405B. Ключевые особенности Hunyuan-Large включают использование больших объемов синтетических данных, превышающих данные в предыдущих исследованиях, стратегию маршрутизации смешанных экспертов, технику сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для экспертов. Кроме того, мы исследовали законы масштабирования и графики скорости обучения для моделей со смешением экспертов, предоставляя ценные инсайты и руководства для будущего развития и оптимизации моделей. Код и контрольные точки модели Hunyuan-Large выпущены для содействия будущим инновациям и применениям. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

Адаптивное кэширование для ускорения генерации видео с помощью Diffusion Transformers

Генерация временно-согласованных видео высокого качества может быть вычислительно затратной, особенно при более длительных временных промежутках. Более новые Диффузионные Трансформеры (DiTs) — несмотря на значительные достижения в этом контексте — только усугубили такие проблемы, поскольку они опираются на более крупные модели и более сложные механизмы внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео DiTs без обучения, названный Адаптивным Кэшированием (AdaCache), который основан на факте, что "не все видео созданы равными": то есть, некоторым видео для достижения приемлемого качества требуется меньше шагов деноизации, чем другим. Опираясь на это, мы не только кэшируем вычисления в процессе диффузии, но и разрабатываем график кэширования, адаптированный к каждой видеогенерации, максимизируя соотношение качество-задержка. Мы также вводим схему регуляризации движения (MoReg), чтобы использовать информацию о видео в рамках AdaCache, фактически управляя распределением вычислительных ресурсов на основе содержания движения. В совокупности, наши готовые к использованию вклады обеспечивают значительное ускорение вывода (например, до 4.7 раз на генерации видео Open-Sora 720p длительностью 2 секунды) без ущерба для качества генерации на нескольких базовых моделях видео DiT.

Законы разреженности активации: К большим языковым моделям с большей разреженностью активации

Спарсность активации указывает на наличие значительного количества слабо вносящих вклад элементов в выходах активации, которые можно устранить, что полезно для многих важных приложений, связанных с крупными языковыми моделями (LLMs). Хотя поощрение большей спарсности активации в LLMs заслуживает глубоких исследований, существующие работы не обладают всесторонними и количественными исследованиями корреляции между спарсностью активации и потенциально влиятельными факторами. В данной статье мы представляем всестороннее исследование количественных масштабируемых свойств и влиятельных факторов спарсности активации в декодер-ориентированных трансформерных LLMs. В частности, мы предлагаем метрику спарсности активации PPL-p%, которая является точной и учитывающей производительность, и применима к любой функции активации. Проведя обширные эксперименты, мы обнаружили несколько важных явлений. Во-первых, различные функции активации показывают сопоставимую производительность, но противоположные тенденции спарсности во время обучения. Коэффициент активации (т.е., 1 минус коэффициент спарсности) эволюционирует как сходящаяся возрастающая степенная зависимость и убывающая логарифмическая степенная зависимость от объема обучающих данных для LLMs с активацией SiLU и ReLU соответственно. Это показывает, что ReLU более эффективен как функция активации по сравнению с SiLU и может использовать больше данных для улучшения спарсности активации. Во-вторых, коэффициент активации линейно увеличивается с отношением ширины к глубине до определенной точки узкого места, что указывает на потенциальное преимущество более глубокой архитектуры при фиксированном масштабе параметров. Наконец, при схожих отношениях ширины и глубины мы удивительно обнаружили, что предельное значение спарсности активации слабо зависит от масштаба параметров, т.е. активационные паттерны в LLM не чувствительны к масштабу параметров. Эти эмпирические законы для LLMs с большей спарсностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLMs.

reluscalingsilu

Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

Недавнее исследование arXiv:2410.15027 исследовало использование диффузионных трансформеров (DiTs) для генерации изображений, не зависящей от задачи, путем простого объединения токенов внимания между изображениями. Однако, несмотря на значительные вычислительные ресурсы, качество генерируемых изображений остается неоптимальным. В данном исследовании мы переоцениваем и оптимизируем эту систему, предполагая, что текстово-изображающие DiTs изначально обладают способностями к контекстно-зависимой генерации, требуя лишь минимальной настройки для их активации. Через разнообразные эксперименты с задачами мы качественно демонстрируем, что существующие текстово-изображающие DiTs могут эффективно выполнять контекстно-зависимую генерацию без какой-либо настройки. Основываясь на этом понимании, мы предлагаем удивительно простой конвейер для использования контекстных способностей DiTs: (1) объединять изображения вместо токенов, (2) проводить совместное описание нескольких изображений и (3) применять специфическую для задачи настройку LoRA с использованием небольших наборов данных (например, 20 символов, 100 образцов) вместо полной настройки параметров с большими наборами данных. Мы назвали наши модели In-Context LoRA (IC-LoRA). Этот подход не требует изменений в оригинальных моделях DiT, только изменения в обучающих данных. Удивительно, но наш конвейер генерирует наборы изображений высокого качества, которые лучше соответствуют запросам. Хотя он специфичен для задач в плане настройки данных, наша система остается не зависящей от задач в архитектуре и конвейере, предоставляя мощный инструмент для сообщества и предлагая ценные выводы для дальнейших исследований в области систем генерации, не зависящих от задач на уровне продукта. Мы публикуем наш код, данные и модели по адресу https://github.com/ali-vilab/In-Context-LoRA.

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

Раскрытие SDXL Turbo: Интерпретация текст-на-изображение моделей с помощью разреженных автокодировщиков

Редкие автоэнкодеры (SAEs) стали ключевым компонентом в обратной инженерии крупных языковых моделей (LLMs). Для LLM было показано, что они разлагают промежуточные представления, которые часто не являются напрямую интерпретируемыми, на разреженные суммы интерпретируемых признаков, что способствует лучшему контролю и последующему анализу. Однако подобные анализы и подходы отсутствовали для моделей преобразования текста в изображение. Мы исследовали возможность использования SAEs для изучения интерпретируемых признаков для моделей диффузии текста в изображение за несколько шагов, таких как SDXL Turbo. С этой целью мы обучили SAEs на обновлениях, выполняемых блоками трансформеров внутри SDXL Turbo's denoising U-net. Мы обнаружили, что их изученные признаки интерпретируемы, оказывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы нашли один блок, который в основном занимается композицией изображения, другой, который в основном отвечает за добавление локальных деталей, и третий - за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом на пути к лучшему пониманию внутренностей генеративных моделей преобразования текста в изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изучаемых SAEs, для визуальной области. Код доступен по адресу https://github.com/surkovv/sdxl-unbox.

DELTA: Плотное, Эффективное, Дальнобойное 3D Трекинг для Любого Видео

Отслеживание плотного 3D движения с монокулярных видеозаписей остается сложной задачей, особенно когда целью является точность на уровне пикселей в течение длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения по всему видео. Наш подход использует совместный глобально-локальный механизм внимания для отслеживания с пониженным разрешением, за которым следует апсемплер на основе трансформера для достижения высокоточных прогнозов в высоком разрешении. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в большом масштабе, работая более чем в 8 раз быстрее предыдущих методов и достигая рекордной точности. Более того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких тестовых площадках, достигая новых рекордных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предлагает надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.