Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "attention"

LLaVA-UHD, v2: Интеграция высокоразрешающей пирамиды признаков через иерархический оконный трансформер

В многомодальных больших языковых моделях (MLLM) широко используются визуальные трансформеры (ViT) для визуального кодирования. Однако их производительность при решении универсальных задач MLLM оставляет желать лучшего. Мы связываем это с нехваткой информации из разнообразных визуальных уровней, что мешает согласованию с различной семантической гранулярностью, необходимой для генерации языка. Чтобы решить эту проблему, мы представляем LLaVA-UHD v2, усовершенствованную MLLM, сосредоточенную вокруг иерархического оконного трансформера, который позволяет захватывать разнообразную визуальную гранулярность, конструируя и интегрируя пирамиду признаков высокого разрешения. В качестве проектировщика зрения и языка трансформер Hiwin включает два основных модуля: (i) обратная пирамида признаков, построенная с помощью процесса увеличения признаков, производного от ViT, с использованием высокочастотных деталей из пирамиды изображений, и (ii) иерархическое внимание окон, сосредоточенное на наборе ключевых признаков выборки в окнах разных масштабов, чтобы конденсировать многоуровневые карты признаков. Обширные эксперименты показывают, что LLaVA-UHD v2 достигает превосходной производительности по сравнению с существующими MLLM на популярных контрольных точках. Особенно примечательно, что наш дизайн обеспечивает среднее увеличение на 3,7% по 14 контрольным показателям по сравнению с базовым методом, в частности, на 9,3% на DocVQA. Мы сделали все данные, контрольную точку модели и код общедоступными, чтобы облегчить будущие исследования.

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

ColorFlow: Революция в цветизации изображений последовательностей

Автоматическая цветизация черно-белых последовательностей изображений с сохранением идентичности персонажей и объектов (ID) является сложной задачей с значительным спросом на рынке, например, для цветизации мультфильмов или комиксов. Несмотря на достижения в визуальной цветизации с использованием крупных генеративных моделей, таких как диффузионные модели, продолжают существовать проблемы с управляемостью и согласованностью идентичности, что делает существующие решения непригодными для промышленного применения. Чтобы решить эту задачу, мы предлагаем ColorFlow — трехэтапную диффузионную основу, адаптированную для цветизации последовательностей изображений в промышленном применении. В отличие от существующих методов, которые требуют дообучения на уровне ID или явной извлечения встраиваний ID, мы предлагаем новую надежную и обобщаемую цветизационную трубопроводную систему с использованием дополненной выборки для цветизации изображений с соответствующими цветовыми ссылками. Наша трубопроводная система также имеет двухветвевую конструкцию: одна ветвь для извлечения цветовой идентичности, а другая для цветизации, используя сильные стороны диффузионных моделей. Мы используем механизм самовнимания в диффузионных моделях для мощного обучения в контексте и сопоставления цветовой идентичности. Для оценки нашей модели мы представляем ColorFlow-Bench, комплексный эталон для цветизации на основе ссылок. Результаты показывают, что ColorFlow превосходит существующие модели по нескольким метрикам, устанавливая новый стандарт в последовательной цветизации изображений и потенциально принося пользу художественной индустрии. Мы публикуем наши коды и модели на нашей странице проекта: https://zhuang2002.github.io/ColorFlow/.

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

IDArb: Интеграция диффузионного моделирования для внутренней декомпозиции изображений

Захват геометрической и материалистической информации из изображений остается основной задачей в области компьютерного зрения и графики. Традиционные методы на основе оптимизации часто требуют часов вычислительного времени для реконструкции геометрии, свойств материалов и освещения окружающей среды из плотных многосмотровых данных, при этом продолжают испытывать трудности с внутренними неясностями между освещением и материалом. С другой стороны, подходы на основе обучения используют богатые материалистические приоритеты из существующих наборов данных 3D-объектов, но сталкиваются с проблемами поддержания последовательности многосмотровых данных. В этой статье мы представляем IDArb, диффузионную модель, разработанную для выполнения внутренней декомпозиции на произвольном количестве изображений при различных условиях освещения. Наш метод достигает точной и последовательной оценки нормалей поверхности и свойств материалов. Это возможно благодаря новому модулю внимания, который учитывает разные виды и области, а также стратегии обучения, адаптированной к условиям освещения. Кроме того, мы представляем ARB-Objaverse, новый набор данных, который предоставляет крупномасштабные многосмотровые внутренние данные и рендеры при разнообразных условиях освещения, поддерживая надежное обучение. Обширные эксперименты показывают, что IDArb превосходит современные методы как качественно, так и количественно. Более того, наш подход облегчает выполнение ряда последующих задач, включая переосвещение одноимажного изображения, фотографическую стереосъёмку и 3D-реконструкцию, подчеркивая его широкое применение в создании реалистичного 3D-контента.

SepLLM: Ускорение больших языковых моделей за счет сжатия сегментов в разделители

Большие Языковые Модели (LLMs) показали исключительные результаты в различных задачах обработки естественного языка. Однако их значительные размеры создают серьезные проблемы, особенно в отношении вычислительных затрат и скорости вывода, из-за их квадратичной сложности. В этой работе мы идентифицировали ключевую закономерность: некоторые, на первый взгляд, бессмысленные специальные токены (т.е. разделители) непропорционально влияют на оценки внимания по сравнению с семантически значимыми токенами. Это наблюдение предполагает, что информация сегментов между этими токенами-разделителями может быть эффективно сжата в сами токены-разделители без значительных потерь информации. Руководствуясь этой идеей, мы представляем SepLLM, многофункциональную платформу, которая ускоряет вывод за счет компрессии этих сегментов и устранения избыточных токенов. Кроме того, мы реализуем эффективные ядра для ускорения обучения. Экспериментальные результаты в условиях без обучения, обучения с нуля и послевыучивания демонстрируют эффективность SepLLM. Примечательно, что, используя архитектуру Llama-3-8B, SepLLM достигает более чем 50% сокращения в кэше KV на контрольном устройстве GSM8K-CoT, сохраняя при этом сопоставимую производительность. Более того, в режимах потоковой передачи SepLLM эффективно обрабатывает последовательности до 4 миллионов токенов и более, одновременно поддерживая стабильные возможности языкового моделирования.

LinGen: Высококачественная генерация видео с линейной вычислительной сложностью

Генерация текста в видео улучшает создание контента, но требует высокой вычислительной мощности: вычислительная стоимость диффузионных трансформеров (DiTs) возрастает квадратично с увеличением количества пикселей. Это делает генерацию видео минутной длины крайне дорогой, ограничивая большинство существующих моделей генерацией видео только длиной 10-20 секунд. Мы предлагаем рамочную систему генерации текста в видео с линейной сложностью (LinGen), стоимость которой возрастает линейно с увеличением количества пикселей. Впервые LinGen обеспечивает генерацию видео высокого разрешения минутной длины на одном GPU без ущерба для качества. Он заменяет вычислительно доминирующий и квадратичной сложности блок, самовнимание, на блок линейной сложности, называемый MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на корреляции от короткой до длинной, комбинируя двунаправленный блок Mamba2 с нашим методом перераспределения токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь — это новый блок временного внимания Swin (TEmporal Swin Attention), который фокусируется на временных корреляциях между соседними токенами и токенами средней дальности. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает согласованность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с коэффициентом побед 75,6%) в качестве видео с уменьшением FLOPs (латентности) до 15 раз (11,5 раз). Более того, как автоматические метрики, так и человеческая оценка показывают, что наш LinGen-4B обеспечивает сопоставимое качество видео с моделями передового опыта (с коэффициентом побед 50,5%, 52,1%, 49,1% по сравнению с Gen-3, LumaLabs и Kling соответственно). Это открывает путь к генерации фильмов продолжительностью в час и генерации интерактивного видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем сайте проекта: https://lineargen.github.io/.

Генерация Изображений Людей с Контролем Параметров: Метод Leffa

Генерация изображений управляемых людей направлена на создание изображений человека, основанных на эталонных изображениях, позволяя точно контролировать внешний вид или позу человека. Однако предыдущие методы часто искажают детализированные текстурные данные из эталонного изображения, несмотря на достижение высокого общего качества изображения. Мы связываем эти искажения с недостаточным вниманием к соответствующим регионам в эталонном изображении. Чтобы решить эту проблему, мы предлагаем обучение полям потока внимания (Leffa), которое явно направляет целевой запрос на правильный эталонный ключ в слое внимания во время обучения. В частности, это реализуется через регуляризационную потерю на основе карты внимания внутри базовой модели на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передовых результатов в контроле внешнего вида (виртуальная примерка) и позы (передача позы), значительно уменьшая искажения тонких деталей, при этом сохраняя высокое качество изображения. Кроме того, мы показываем, что наша потеря является независимой от модели и может быть использована для улучшения производительности других моделей диффузии.

StreamChat: Интерактивное взаимодействие с потоковым видео

В данной статье представлен StreamChat — новый подход, который улучшает возможности взаимодействия Больших Мультимодальных Моделей (LMM) с потоковым видео-контентом. В сценариях взаимодействия с потоками существующие методы полагаются исключительно на визуальную информацию, доступную в момент, когда задаётся вопрос, что приводит к значительным задержкам, поскольку модель не осознает последующие изменения в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, гарантируя, что модель использует актуальный видео-контент на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых вводов, обеспечивая при этом эффективность вывода для потоковых взаимодействий. Более того, мы создаем новый плотный датасет инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты демонстрируют, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках для изображений и видео и демонстрирует превосходные возможности в сценариях потокового взаимодействия по сравнению с современными видео LMM.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

KV-Shifting Attention: Новая Эра в Языковом Моделировании

Современные крупные языковые модели в основном основаны на структуре трансформеров только декодирования, которые обладают отличными способностями к обучению в контексте (ICL). Общее мнение заключается в том, что важной основой её способности ICL является механизм индукционных голов, который требует как минимум два слоя внимания. Чтобы более эффективно реализовать способность индукции модели, мы пересматриваем механизм индукционных голов и предлагаем внимание с перемещением KV. Мы теоретически доказываем, что внимание с перемещением KV снижает требования модели к глубине и ширине механизма индукционных голов. Наши экспериментальные результаты демонстрируют, что внимание с перемещением KV благоприятно сказывается на обучении индукционных голов и языковом моделировании, что приводит к лучшей производительности или более быстрой сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 миллиардами параметров.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

AnyDressing: Настраиваемая виртуальная примерка одежды с помощью латентных диффузионных моделей

Недавние достижения в генерации изображений, ориентированных на одежду, из текстовых и графических подсказок на основе диффузионных моделей, впечатляют. Однако существующие методы не поддерживают различные комбинации нарядов и испытывают трудности с сохранением деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их эффективность в различных сценариях. В данной статье мы сосредоточены на новой задаче, а именно на виртуальной одежде с множеством нарядов, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации нарядов и любых персонализированных текстовых подсказок. AnyDressing состоит из двух основных сетей, названных GarmentsNet и DressingNet, которые соответственно предназначены для извлечения детализированных характеристик одежды и генерации индивидуализированных изображений. В частности, мы предлагаем эффективный и масштабируемый модуль с названием Garment-Specific Feature Extractor в GarmentsNet, чтобы индивидуально кодировать текстуры одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем мы разрабатываем механизм адаптивного Dressing-Attention и новую стратегию обучения локализации одежды на уровне экземпляра в DressingNet, чтобы точно внедрять многократные характеристики одежды в соответствующие регионы. Этот подход эффективно интегрирует текстурные подсказки многослойной одежды в сгенерированные изображения и далее улучшает согласованность текстов и изображений. Кроме того, мы представляем стратегию обучения текстур, улучшенную за счет одежды, для повышения детализации отточенных текстур одежды. Благодаря нашему хорошо продуманному дизайну AnyDressing может служить модулем плагина для легкой интеграции с любыми расширениями управления сообществом для диффузионных моделей, улучшая разнообразие и контролируемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает самых современных результатов.

MEMO: Генерация выразительных говорящих видео с помощью памяти и диффузии

Недавние достижения в моделях диффузии видео открыли новые возможности для реалистичной генерации видео с говорящими персонажами, управляемыми аудио. Однако достижение бесшовной синхронизации аудио и губ, поддержание долгосрочной согласованности идентичности и создание естественных выражений лиц, согласованных с аудио, остаются значительными вызовами. Чтобы решить эти проблемы, мы предлагаем диффузию, основанную на эмоциях и управляемую памятью (MEMO), подход «от начала до конца» для анимации портретов, основанный на аудио, для генерации говорящих видео с согласованной идентичностью и выразительностью. Наш подход строится вокруг двух ключевых модулей: (1) временного модуля с управлением памятью, который улучшает долгосрочную согласованность идентичности и плавность движений, разрабатывая состояния памяти для хранения информации из более долгого контекста прошлого, чтобы направлять временное моделирование с помощью линейного внимания; и (2) аудио-модуль, учитывающий эмоции, который заменяет традиционное перекрестное внимание на многомодальное внимание для улучшения взаимодействия аудио-видео, одновременно определяя эмоции по аудио для уточнения выражений лиц через адаптивную нормализацию слоя эмоций. Обширные количественные и качественные результаты демонстрируют, что MEMO генерирует более реалистичные говорящие видео, охватывающие разнообразные типы изображений и аудио, превосходя современные методы по общей качеству, синхронизации аудио и губ, согласованности идентичности и согласованию выражения и эмоций.

MIDI: Многоэкземплярное диффузионное моделирование для генерации 3D-сцен из одного изображения

Данная работа представляет MIDI, новую парадигму для композиционной генерации 3D-сцен из одного изображения. В отличие от существующих методов, основанных на техниках реконструкции или поиска, или недавних подходов, использующих многоступенчатую генерацию объектов по отдельности, MIDI расширяет предварительно обученные модели генерации изображений в 3D-объекты до моделей диффузии с несколькими экземплярами, позволяя одновременно генерировать несколько 3D-экземпляров с точными пространственными отношениями и высокой обобщаемостью. В своей основе MIDI включает новую механизм многоэкземплярного внимания, который эффективно улавливает взаимодействия между объектами и пространственную когерентность прямо в процессе генерации, без необходимости в сложных многоступенчатых процессах. Метод использует частичные изображения объектов и глобальный контекст сцены в качестве входных данных, непосредственно моделируя завершение объектов во время генерации 3D. Во время обучения мы эффективно контролируем взаимодействия между 3D-экземплярами, используя ограниченное количество данных на уровне сцены, при этом включая данные по одиночным объектам для регуляризации, сохраняя тем самым способность к обобщению, присущую предварительно обученным моделям. MIDI демонстрирует достижения на уровне современного искусства в генерации изображений в сцены, что подтверждается оценками на синтетических данных, реальных сценах и стилизованных изображениях сцен, созданных моделями диффузии текстов в изображения.

SNOOPI: Усовершенствованная одноступенчатая дистилляция диффузионных моделей

Недавние подходы дали обнадеживающие результаты в дистилляции многоступенчатых моделей диффузии текста в изображение в одноступенчатые. Современная эффективная техника дистилляции, а именно SwiftBrushv2 (SBv2), даже превосходит производительность модель-учителя при ограниченных ресурсах. Однако наше исследование показывает ее нестабильность при работе с разными основами моделей диффузии из-за использования фиксированной шкалы управления внутри потерь Вариационной Дистилляции Оценки (VSD). Еще одной слабостью существующих одноступенчатых моделей диффузии является отсутствие поддержки отрицательной подсказки, что критически важно в практической генерации изображений. Эта статья представляет SNOOPI, новую структуру, разработанную для решения этих ограничений путем улучшения управления в одноступенчатых моделях диффузии как в процессе обучения, так и в процессе вывода. Во-первых, мы эффективно увеличиваем стабильность обучения через Правильное Управление-SwiftBrush (PG-SB), которое использует подход классификации без-guidance с произвольной шкалой. Путем изменения шкалы управления у обеих модель-учителей мы расширяем их распределения выходных данных, что приводит к более надежным потерям VSD, которые позволяют SB эффективно работать с разнообразными основами, сохраняя при этом конкурентоспособную производительность. Во-вторых, мы предлагаем метод без обучения, называемый Вниманием Направленным Вперёд Отрицательно (NASA), который интегрирует отрицательные подсказки в одноступенчатые модели диффузии через перекрестное внимание, чтобы подавить нежелательные элементы в генерируемых изображениях. Наши экспериментальные результаты показывают, что предлагаемые нами методы значительно улучшают базовые модели по различным метрикам. Удивительно, но мы достигаем балла HPSv2 31.08, устанавливая новую современную эталонную оценку для одноступенчатых моделей диффузии.

LUMINET: Слияние Латентных Интринсиков и Моделей Диффузии для Переноса Освещения в Внутренних Сценах

Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и латентные внутренние представления для эффективной передачи освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует пересвеченную версию исходной сцены, которая захватывает освещение цели. Наш подход делает два ключевых вклада: стратегию кураторства данных на основе модели повторного освещения StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как латентные внутренние свойства исходного изображения, так и латентные экстраинтерные свойства целевого изображения. Мы дополнительно улучшаем передачу освещения с помощью обученного адаптера (MLP), который вводит латентные экстраинтерные свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает латентные представления из двух разных изображений - сохраняя геометрию и альбедо из источника, в то время как передает характеристики освещения из цели. Эксперименты показывают, что наш метод успешно передает сложные феномены освещения, включая бликовые отражения и непрямое освещение, по сценам с различной пространственной компоновкой и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

TAPTRv3: Улучшение отслеживания точек в длинных видео

В данной работе мы представляем TAPTRv3, который основан на TAPTRv2 и направлен на улучшение его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, которая может точно отслеживать любую точку в реальных видеоматериалах без необходимости использования объема затрат. TAPTRv3 улучшает TAPTRv2, устраняя его недостаток в запрашивании высококачественных признаков из длинных видео, где целевые точки отслеживания обычно подвергаются увеличивающимся изменениям со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запрашивания признаков по пространственным и временным измерениям для более надежного отслеживания в длинных видео. Для лучшего запрашивания пространственных признаков мы представляем Контекстно-осознающее Перекрестное Внимание (CCA), которое использует окружающий пространственный контекст для повышения качества значений внимания при запросе признаков изображения. Для лучшего запрашивания временных признаков мы вводим Внимание с учетом Видимости на Долгом Времени (VLTA), чтобы проводить временное внимание ко всем прошлым кадрам с учетом их соответствующих видимостей, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его RNN-подобным долгосрочным моделированием. TAPTRv3 значительно превосходит TAPTRv2 на большинстве сложных наборов данных и достигает передовой производительности. Даже по сравнению с методами, обученными на данных большого масштаба, TAPTRv3 по-прежнему остается конкурентоспособным.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

S-WITTI: Проектирование масштабируемых трансформеров для синтеза текстов в изображения

Эта работа представляет Switti, трансформер с масштабным подходом для генерации текста в изображение. Исходя из существующих моделей предсказания следующего масштаба AR, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации, чтобы улучшить их сходимость и общую производительность. Затем мы наблюдаем, что карты самовнимания нашей предобученной модели AR с масштабным подходом демонстрируют слабую зависимость от предшествующих масштабов. Основываясь на этой идее, мы предлагаем соответствующую модель без AR, которая облегчает примерно на 11% более быстрое сэмплирование и обеспечивает более низкое использование памяти, одновременно достигая чуть лучшего качества генерации. Более того, мы показываем, что управление без классификаторов на масштабах с высоким разрешением часто является ненужным и может даже ухудшать производительность. Отключив управление на этих масштабах, мы достигаем дополнительного ускорения сэмплирования примерно на 20% и улучшаем генерацию тонких деталей. Обширные исследования предпочтений человека и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с современными моделями диффузии T2I, будучи до 7 раз быстрее.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

ROICtrl: Улучшение управления экземплярами для визуальной генерации

Естественный язык часто испытывает трудности с точной ассоциацией позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает современные модели визуальной генерации на основе текста более простыми композициями, содержащими лишь несколько доминирующих экземпляров. Чтобы устранить это ограничение, данная работа улучшает модели диффузии, вводя региональный контроль экземпляров, при котором каждый экземпляр контролируется ограничивающим прямоугольником, paired with a free-form caption. Предыдущие методы в этой области обычно полагаются на неявное кодирование позиций или явные маски внимания для разделения интересующих областей (ROI), что приводит либо к неточной инъекции координат, либо к высоким вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы вводим дополнительную операцию, называемую ROI-Unpool. В совокупности, ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на высокоразрешающих картах признаков для визуальной генерации. Основываясь на ROI-Unpool, мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точный региональный контроль экземпляров. ROICtrl совместим с сообщества-подстроенными моделями диффузии, а также с существующими дополняющими модулями на основе пространственной информации (например, ControlNet, T2I-Adapter) и модулями на основе встраивания (например, IP-Adapter, ED-LoRA), расширяя их применение для генерации многоприводных экземпляров. Эксперименты показывают, что ROICtrl достигает превосходной производительности в regional instance control, одновременно значительно снижая вычислительные затраты.

TEXGen: Генеративная модель диффузии для текстур сеток

Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D активов, мало исследований посвящено изучению непосредственно в пространстве текстур, особенно на больших наборах данных. В этой работе мы отходим от традиционного подхода, который полагается на предварительно обученные 2D модели диффузии для оптимизации текстур 3D в режиме тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в самом UV-пространстве текстур. Впервые мы обучаем большую модель диффузии, способную напрямую генерировать текстурные карты высокого разрешения в режиме прямого прохода. Для обеспечения эффективного обучения в UV-пространстве высокого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свёртки на UV-картах с слоями внимания на облаках точек. Используя эту архитектурную конструкцию, мы обучаем модель диффузии с 700 миллионами параметров, которая может генерировать UV-текстурные карты, руководствуясь текстовыми запросами и изображениями с одного ракурса. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая текстово-направленное заполнение текстур, заполнение текстур с разреженными видами и синтез текстур, управляемый текстом. Страница проекта доступна по адресу http://cvmi-lab.github.io/TEXGen/.

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

EfficientViM: Эффективная архитектура для компьютерного зрения

Для развертывания нейронных сетей в условиях ограниченных ресурсов ранее были разработаны легкие архитектуры с использованием свертки и внимания для захвата локальных и глобальных зависимостей соответственно. В последнее время модель пространства состояний стала эффективным средством глобального взаимодействия токенов благодаря своей благоприятной линейной вычислительной стоимости в отношении количества токенов. Тем не менее, эффективные визуальные основы, построенные с использованием SSM, были менее исследованы. В этой статье мы представляем Efficient Vision Mamba (EfficientViM) — новую архитектуру, основанную на смешивателе скрытых состояний с двойственностью состояния пространства (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD, чтобы включить операцию смешивания каналов в скрытых состояниях. Дополнительно мы предлагаем многоуровневую фузию скрытых состояний, чтобы дополнительно усилить представительную способность скрытых состояний, и предоставляем дизайн, смягчающий узкие места, вызванные операциями с памятью. В результате семейство EfficientViM достигает нового уровня скорости и точности на ImageNet-1k, предлагая до 0,7% улучшение производительности по сравнению со второй моделью SHViT с более быстрой скоростью. Более того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или применении обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

llmattentionsvg

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

Гимба: Архитектура с гибридными головами для малых языковых моделей

Мы представляем Hymba, семейство небольших языковых моделей, использующих гибридную параллельную архитектуру голов, которая интегрирует механизмы внимания трансформеров с моделями состояния пространства (SSM) для повышения эффективности. Головы внимания обеспечивают высокую разрешающую способность воспоминаний, в то время как головы SSM позволяют эффективно обобщать контекст. Кроме того, мы вводим обучаемые мета-токены, которые добавляются в начале запросов, хранят критическую информацию и снижают "вынужденное внимание", связанное с механизмами внимания. Эта модель дополнительно оптимизирована за счет включения обмена ключ-значение (KV) между слоями и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В процессе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и наблюдали значительные преимущества нашей предложенной архитектуры. В частности, Hymba достигает рекордных результатов среди малых языковых моделей: наша модель Hymba-1.5B-Base превосходит все публичные модели с менее чем 2 миллиардами параметров по производительности и даже превосходит Llama-3.2-3B с на 1.32% выше средней точностью, уменьшением размера кэша в 11.67 раз и увеличением пропускной способности в 3.49 раза.

Stable Flow: Vital Layers for Training-Free Image Editing

Модели диффузии произвели революцию в области синтеза и редактирования контента. Современные модели заменили традиционную архитектуру UNet на Diffusion Transformer (DiT) и использовали согласование потока для улучшения обучения и сэмплирования. Однако, они показывают ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательного редактирования изображений путем селективного введения аттеншн-фич. Основная проблема заключается в том, что, в отличие от моделей на базе UNet, DiT не имеет структуры синтеза от грубого к детальному, что делает неясным, в какие слои следует вводить изменения. Поэтому мы предлагаем автоматический метод для выявления "жизненно важных слоев" внутри DiT, которые критически важны для формирования изображения, и показываем, как эти слои облегчают ряд контролируемых стабильных изменений, от нежестких модификаций до добавления объектов, используя тот же механизм. Далее, для возможности редактирования реальных изображений, мы представляем усовершенствованный метод инверсии изображения для моделей потока. В заключение, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.

SageAttention2: Технический отчет

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц на 8 бит, умножение матриц на 16 бит с аккумулятором на 16 бит и методы повышения точности, реализуя точное и ускоренное на 2 раза ядро по сравнению с FlashAttention2. Для дальнейшего улучшения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц на 4 бита (Matmul) вместе с дополнительными методами повышения точности. Во-первых, мы предлагаем квантование матриц (Q, K) до INT4 на уровне warp и квантование матриц (widetilde P, V) до FP8. Во-вторых, мы предлагаем метод для сглаживания Q и V, повышая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно на 3 и 5 раз на RTX4090 соответственно. Всеобъемлющие эксперименты подтверждают, что наш подход приводит к незначительным потерям метрик от начала до конца на разнообразных моделях, включая те, что используются для обработки больших языковых моделей, генерации изображений и видео. Код доступен по адресу https://github.com/thu-ml/SageAttention.

Когда точность встречает позицию: BFloat16 нарушает RoPE в обучении с длинным контекстом

Расширение размеров контекстного окна позволяет крупным языковым моделям (LLMs) обрабатывать более длинные последовательности и выполнять более сложные задачи. Вращательное позиционное встраивание (RoPE) стало стандартом de facto благодаря своим свойствам относительного позиционного кодирования, которые полезны для обучения с длинным контекстом. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, что заставляет его отклоняться от предназначенного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается по мере увеличения длины контекста, причем первый токен вносит значительный вклад в эту проблему. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который можно легко интегрировать, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention сокращает ненужные вычисления внимания, поддерживает семантическую согласованность и повышает вычислительную эффективность, обращаясь с первым токеном как с общим якорем с постоянным идентификатором позиции, делая его видимым для всех документов в контексте обучения. Эксперименты на трех типах LLMs показывают, что AnchorAttention значительно улучшает производительность в длинных контекстах и сокращает время обучения более чем на 50% по сравнению со стандартными механизмами полного внимания, при этом сохраняя исходные возможности LLM для общих задач. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В данной статье мы представляем RAG, метод генерации изображений по тексту с учетом региональных описаний для точного компоновки макета. Региональное подсказывание или композитная генерация, позволяющая точный пространственный контроль, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако, предыдущие методы либо вводят дополнительные обучаемые модули, что ограничивает их применение только к определенным моделям, либо манипулируют картами оценок внутри слоев перекрестного внимания с помощью масок внимания, что приводит к ограниченной силе контроля при увеличении числа регионов. Чтобы справиться с этими ограничениями, мы разделяем процесс многорегиональной генерации на две подзадачи: создание отдельных регионов (Региональная Жесткая Привязка), что гарантирует правильное выполнение регионального запроса, и общую детальную доработку (Региональная Мягкая Доработка) регионов, которая игнорирует визуальные границы и усиливает взаимодействие между соседними регионами. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные неудовлетворительные регионы предыдущей генерации, оставляя все остальные регионы неизменными, без необходимости использовать дополнительные модели для дорисовки. Наш подход не требует настройки и может быть применен к другим системам как улучшение следования запросу. Количественные и качественные эксперименты показывают, что RAG превосходит предыдущие методы без настройки по привязке атрибутов и отношениям объектов.

Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.

Вставка объектов в изображения без обучения с использованием предобученных диффузионных моделей

Добавление объектов на изображения на основе текстовых инструкций является сложной задачей в области семантического редактирования изображений, требующей баланса между сохранением исходной сцены и бесшовной интеграцией нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с трудностями в достижении этого баланса, особенно при поиске естественного места для добавления объекта в сложные сцены. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания диффузионных моделей для включения информации из трех ключевых источников: изображения сцены, текстового запроса и самого сгенерированного изображения. Наш механизм расширенного взвешенного внимания поддерживает структурную согласованность и мелкие детали, одновременно обеспечивая естественное размещение объекта. Без специфической настройки для задачи, Add-it достигает рекордных результатов на бенчмарках вставки изображений как на реальных, так и на сгенерированных изображениях, включая наш новый "Бенчмарк возможности добавления" для оценки правдоподобности размещения объекта, превосходя методы с обучением. Оценки пользователей показывают, что Add-it предпочтителен в более чем 80% случаев, и он также демонстрирует улучшения по различным автоматизированным метрикам.

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.

HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

Мы предлагаем эффективный метод внедрения адаптеров в базовые модели преобразования текста в изображение, который позволяет выполнять сложные задачи на последующих этапах, сохраняя при этом способность базовой модели к обобщению. Основная идея данного метода заключается в оптимизации механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемов и показал значительные результаты. Мы надеемся, что эта работа может дать представление о задачах, выполняемых после обучения, для крупных моделей преобразования текста в изображение. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он представляет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем соответствующий код (https://songkey.github.io/hellomeme).