Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Усовершенствование визуального рассуждения в мультимодальных языковых моделях с помощью Perception Tokens

Мультимодальные языковые модели (MLM) по-прежнему сталкиваются с проблемами в фундаментальных задачах визуального восприятия, в которых специализированные модели преуспевают. Задачи, требующие рассуждений о 3D-структурах, выигрывают от оценки глубины, а рассуждения о 2D-объектах выигрывают от обнаружения объектов. Тем не менее, MLM не могут производить промежуточные данные о глубине или боксы для рассуждения. Тонкая настройка MLM на соответствующих данных плохо обобщается, а передача вычислений специализированным инструментам визуализации слишком сложна и неэффективна по памяти. Чтобы решить эту проблему, мы представляем Токены Восприятия, внутренние представления изображений, созданные для помощи в задачах рассуждения, где язык недостаточен. Токены восприятия действуют как вспомогательные токены рассуждений, подобные подсказкам цепочки мыслей в языковых моделях. Например, в задаче, связанной с глубиной, MLM, дополненная токенами восприятия, может рассуждать, создавая карту глубины в виде токенов, что позволяет ей эффективно решать проблему. Мы предлагаем AURORA, метод обучения, который дополняет MLM токенами восприятия для улучшения рассуждений о визуальных входах. AURORA использует VQVAE для преобразования промежуточных представлений изображений, таких как карты глубины, в токенизированный формат и токены ограничивающих рамок, которые затем используются в многозадачной обучающей системе. AURORA добивается значительных улучшений по ведущим бенчмаркам: +10.8% по BLINK, +11.3% по CVBench и +8.3% по SEED-Bench, превосходя подходы тонкой настройки в обобщении по наборам данных. Он также улучшает относительную глубину: более +6% на BLINK. С токенами восприятия AURORA расширяет возможности MLM за пределы языкового рассуждения, прокладывая путь к более эффективным возможностям визуального рассуждения.

Двухступенчатая надежная водяная марка для изображений

Поскольку качество генераторов изображений продолжает улучшаться, дипфейки становятся темой значительных общественных дебатов. Водяная маркировка изображений позволяет ответственным владельцам моделей обнаруживать и помечать свой контент, сгенерированный ИИ, что может смягчить ущерб. Тем не менее, современные передовые методы водяной маркировки изображений остаются уязвимыми к подделкам и атакам на удаление. Эта уязвимость частично возникает из-за того, что водяные знаки искажают распределение сгенерированных изображений, непреднамеренно раскрывая информацию о методах водяной маркировки. В данной работе мы сначала демонстрируем метод маркировки без искажений для изображений, основанный на начальном шуме диффузионной модели. Тем не менее, для обнаружения водяного знака необходимо сравнить восстановленный начальный шум для изображения со всеми ранее использованными начальными шумами. Чтобы смягчить эти проблемы, мы предлагаем двухступенчатую структуру водяной маркировки для эффективного обнаружения. Во время генерации мы увеличиваем начальный шум с помощью сгенерированных фурье-узоров, чтобы внедрить информацию о группе начальных шумов, которые мы использовали. Для обнаружения мы (i) извлекаем соответствующую группу шумов и (ii) ищем в данной группе начальный шум, который может соответствовать нашему изображению. Этот подход водяной маркировки достигает передовой устойчивости к подделкам и удалению против большого количества атак.

Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Политики визуомоторных роботов, все более предобученные на больших наборах данных, обещают значительные достижения в различных областях робототехники. Однако согласование этих политик с предпочтениями конечных пользователей остается проблемой, особенно когда предпочтения трудно указать. Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало преобладающим механизмом для согласования в не-облаченных областях, таких как большие языковые модели, оно не достигло такого же успеха в согласовании визуомоторных политик из-за колоссального объема обратной связи от людей, необходимого для изучения визуальных функций награды. Чтобы решить эту проблему, мы предлагаем Обучение на основе предпочтений, выровненных по представлению (RAPL), метод, основанный только на наблюдениях, для обучения визуальным наградам, используя значительно меньше обратной связи от человеческих предпочтений. В отличие от традиционного RLHF, RAPL сосредоточивает обратную связь от людей на дообучении предобученных визуальных энкодеров для согласования с визуальным представлением конечного пользователя, а затем строит плотную визуальную награду через сопоставление признаков в этом согласованном пространстве представлений. Сначала мы валидируем RAPL через симуляционные эксперименты в бенчмарке X-Magical и манипуляции с роботом Franka Panda, демонстрируя, что он может учить награды, согласованные с человеческими предпочтениями, более эффективно использует данные предпочтений и обобщает на различных воплощениях роботов. Наконец, наши аппаратные эксперименты согласовывают предобученные Политики диффузии для трех задач манипуляции объектами. Мы обнаружили, что RAPL может дообучать эти политики, используя в 5 раз меньше реальных данных о предпочтениях людей, делая первый шаг к минимизации требований к человеческой обратной связи при максимизации согласования политик визуомоторного робота.

LoRA.rar: Эффективное объединение LoRA для генерации изображений с учетом стиля и содержания

Недавние достижения в моделях генерации изображений позволили производить персонализированное создание изображений с использованием как определенных пользователем объектов (содержания), так и стилей. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRA) через методы, основанные на оптимизации, которые требуют больших вычислительных ресурсов и не подходят для использования в реальном времени на устройствах с ограниченными ресурсами, таких как смартфоны. Чтобы решить эту проблему, мы представляем LoRA.rar, метод, который не только улучшает качество изображения, но и достигает замечательной ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар содержимого и стиля LoRA, изучая эффективную стратегию объединения, которая обобщается на новые, невидимые пары содержимого и стиля, позволяя быстрое и высококачественное персонализированное создание. Более того, мы выявляем ограничения существующих методов оценки качества содержимого и стиля и предлагаем новый протокол, использующий многомодальные большие языковые модели (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как в точности содержания, так и в стилевой верности, как подтверждают оценки MLLM и человеческие оценки.

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

Chimera: Улучшение универсальной модели с помощью специализированных экспертов

Недавние достижения в области крупных мультимодальных моделей (LMM) подчеркивают важность масштабирования за счет увеличения объема парных данных изображений и текста, что приводит к впечатляющим результатам в общих задачах. Несмотря на их эффективность в широких приложениях, общие модели в основном обучаются на датасетах веб-масштаба, доминирующих естественными изображениями, что приводит к жертве специализированными возможностями для задач, требующих обширных предварительных знаний в конкретной области. Более того, прямое интегрирование экспертных моделей, адаптированных для определенных областей, является сложной задачей из-за разрыва в представлении и дисбаланса оптимизации между общей моделью и экспертами. Чтобы решить эти проблемы, мы представляем Chimera, масштабируемый и недорогой мультимодальный конвейер, разработанный для повышения способности существующих LMM с помощью экспертов из конкретных областей. В частности, мы разрабатываем прогрессивную стратегию обучения для интеграции функций из экспертных моделей в ввод общей мультимодальной модели. Чтобы решить дисбаланс оптимизации, вызванный хорошо согласованным общим визуальным кодировщиком, мы вводим новый механизм сотрудничества между общими и специализированными моделями (GSCM). Это приводит к универсальной модели, которая превосходит по всем параметрам в областях графиков, таблиц, математики и документов, достигая состояния искусства в задачах мультимодального рассуждения и извлечения визуального содержания, обе из которых являются сложными задачами для оценки существующих LMM.

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

EMOv2: Прорыв в легковесных моделях компьютерного зрения

Эта работа сосредоточена на разработке параметрически эффективных и легковесных моделей для плотных предсказаний, балансируя между параметрами, FLOPs и производительностью. Наша цель — установить новую границу легковесной модели величиной 5M на различных downstream задачах. Инвертированный residual блок (IRB) служит инфраструктурой для легковесных CNN, но аналогов с учетом внимания не было признано. Наша работа переосмысливает легковесную инфраструктуру эффективного IRB и практические компоненты в Transformer с единой точки зрения, расширяя основанный на CNN IRB для моделей, основанных на внимании, и абстрагируя один residual Meta Mobile Block (MMBlock) для проектирования легковесных моделей. Следуя аккуратным, но эффективным критериям проектирования, мы выводим современный улучшенный инвертированный residual мобильный блок (i2RMB) и улучшаем иерархическую эффективную модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей в сетях 4G/5G и обеспечивая производительность моделей, мы исследуем предельную производительность легковесных моделей с масштабом 5M. Обширные эксперименты по различным задачам распознавания образов, плотного предсказания и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами; например, EMOv2-1M/2M/5M достигает 72.3, 75.8 и 79.4 Top-1, что значительно превышает аналогичные CNN-/Attention-модели. В то же время EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP для задач обнаружения объектов, что на +2.6 превышает предыдущий EMO-5M. При использовании более надежного рецепта обучения наш EMOv2-5M в конечном итоге достигает 82.9 Top-1 точности, что поднимает производительность моделей величиной 5M на новый уровень. Код доступен по адресу https://github.com/zhangzjn/EMOv2.

Полностью открытый исходный код Moxin-LLM: Технический отчет

Недавно большие языковые модели (LLM) претерпели значительную трансформацию, отмеченную быстрым ростом как их популярности, так и возможностей. Ведущими в этой эволюции являются проприетарные LLM, такие как GPT-4 и GPT-01, которые привлекли широкое внимание в сообществе ИИ благодаря своим выдающимся показателям и универсальности. Одновременно открытые LLM, такие как LLaMA и Mistral, внесли большой вклад в постоянно растущую популярность LLM благодаря легкости настройки и развертывания моделей в различных приложениях. Хотя открытые LLM предоставляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения по поводу прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют основным требованиям прозрачности, удерживая важные компоненты, такие как код и данные для обучения, а некоторые используют ограничительные лицензии, утверждая, что они "открытые", что может препятствовать дальнейшим инновациям в области LLM. Чтобы смягчить эту проблему, мы представляем Moxin 7B, полностью открытый LLM, разработанный в соответствии с рамками открытости моделей (MOF), системой ранговой классификации, которая оценивает модели ИИ на основе полноты модели и открытости, соблюдая принципы открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря комплексному выпуску кода и конфигураций дообучения, наборов данных для обучения и тонкой настройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель демонстрирует превосходные результаты в нулевом тестировании по сравнению с популярными 7B моделями и показывает конкурентные результаты в тестировании с малым количеством примеров.

Новый фреймворк федеративного обучения против атак инверсии градиентов

Федеративное обучение (FL) нацелено на защиту конфиденциальности данных, позволяя клиентам совместно обучать модели машинного обучения без обмена своими сырыми данными. Тем не менее, недавние исследования показывают, что информация, обменяемая в процессе FL, подвержена атакам инверсии градиента (GIA), и, следовательно, различные методы защиты конфиденциальности были интегрированы в FL для предотвращения таких атак, такие как безопасные вычисления с участием нескольких сторон (SMC), гомоморфное шифрование (HE) и дифференциальная конфиденциальность (DP). Несмотря на их способность защищать конфиденциальность данных, эти подходы по своей природе включают значительные компромиссы между конфиденциальностью и полезностью. Переосмысливая ключ к раскрытию конфиденциальности в FL в условиях GIA, который заключается в частом обмене градиентами модели, содержащими личные данные, мы принимаем новую перспективу, разрабатывая новую структуру FL, сохраняющую конфиденциальность, которая эффективно "разрывает прямую связь" между общими параметрами и локальными личными данными для защиты от GIA. В частности, мы предлагаем структуру федеративного обучения с гиперсетями (HyperFL), которая использует гиперсети для генерации параметров локальной модели, и только параметры гиперсети загружаются на сервер для агрегации. Теоретические анализы демонстрируют скорость сходимости предложенной структуры HyperFL, в то время как обширные экспериментальные результаты показывают возможность сохранения конфиденциальности и сопоставимую производительность HyperFL. Код доступен на https://github.com/Pengxin-Guo/HyperFL.

HARP: Улучшение производительности языковых моделей с помощью осведомленности о колебаниях и переосмысления

Эта работа нацелена на улучшение производительности больших языковых моделей, устраняя переменные вычислительные требования на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP — простую модификацию прямого прохода трансформеров "с полки". Опираясь на колебания и эффект кадрирования в процессе принятия решений, HARP избирательно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь в сложные моменты принятия решений и переформулируя ввод для получения другой перспективы. В отличие от других подходов, HARP является независимым от модели, не требует обучения и прост в реализации. Мы тщательно оцениваем наш метод по различным конечным задачам и размерам моделей, демонстрируя улучшения производительности до +5,16%. Примечательно, что HARP достигает этих успехов, сохраняя время вывода в два раза быстрее, чем метод «лестницы». Простой и в то же время приносящий значительные преимущества, HARP предлагает практическое решение для повышения производительности языковых моделей на основе трансформеров с минимальным вычислительным влиянием.

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

Контекстуализированная контрречь: стратегии адаптации, персонализации и оценки

Сгенерированная ИИ контрречь предлагает многообещающую и масштабируемую стратегию для сокращения онлайн-токсичности через прямые ответы, которые способствуют гражданскому дискурсу. Однако текущая контрречь является универсальной, не адаптированной к контексту модерации и вовлеченным пользователям. Мы предлагаем и оцениваем несколько стратегий генерации адаптированной контрречи, которая подстраивается под контекст модерации и персонализируется для пользователя, подвергающегося модерации. Мы обучаем модель LLaMA2-13B генерировать контрречь, экспериментируя с различными конфигурациями на основе различной контекстуальной информации и стратегий дообучения. Мы определяем конфигурации, которые генерируют убедительную контрречь с помощью комбинации количественных показателей и человеческих оценок, собранных в ходе заранее зарегистрированного эксперимента по краудсорсингу смешанного дизайна. Результаты показывают, что контекстуализированная контрречь может значительно превосходить самые современные универсальные контрречи по адекватности и убеждающей силе, не ухудшая другие характеристики. Наши результаты также показывают слабую корреляцию между количественными показателями и человеческими оценками, что предлагает, что эти методы оценивают разные аспекты и подчеркивает необходимость более тонких методологий оценки. Эффективность контекстуализированной сгенерированной ИИ контрречи и расхождение между человеческими и алгоритмическими оценками подчеркивают важность увеличенного сотрудничества человека и ИИ в модерации контента.

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

DiffSensei: Инновации в генерации манги с использованием LLM и диффузионных моделей

Визуализация истории, задача создания визуальныхNarrativi из текстовых описаний, значительно продвинулась благодаря моделям генерации изображений на основе текста. Однако эти модели часто не обеспечивают эффективного контроля над внешним видом персонажей и их взаимодействиями, особенно в сценах с несколькими персонажами. Чтобы устранить эти ограничения, мы предлагаем новую задачу: кастомная генерация манги и представляем DiffSensei, инновационную платформу, специально разработанную для генерации манги с динамическим многоперсонажным контролем. DiffSensei интегрирует генератор изображений на основе диффузии с мультимодальной большой языковой моделью (MLLM), которая выступает в роли текстового адаптера идентичности. Наш подход использует маскированное перекрестное внимание для того, чтобы безшовно интегрировать черты персонажей, позволяя точно контролировать макет без прямой передачи пикселей. Кроме того, адаптер на основе MLLM корректирует черты персонажей в соответствии с текстовыми подсказками, специфичными для панелей, позволяя гибкие настройки выражений персонажей, поз и действий. Мы также представляем MangaZero, крупномасштабный набор данных, ориентированный на эту задачу, который содержит 43 264 страницы манги и 427 147 аннотированных панелей, поддерживающих визуализацию различных взаимодействий и движений персонажей в последовательных кадрах. Обширные эксперименты показывают, что DiffSensei превосходит существующие модели, что является значительным достижением в генерации манги благодаря адаптации настроек персонажей к тексту. Страница проекта: https://jianzongwu.github.io/projects/diffsensei/.

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

FiVA: Новый Подход к Генерации Изображений с Учетом Тонких Визуальных Атрибутов

Недавние достижения в генерации текстов в изображения позволили создавать высококачественные изображения с разнообразными приложениями. Однако точно описать желаемые визуальные характеристики может быть сложно, особенно для непрофессионалов в области искусства и фотографии. Интуитивным решением является использование благоприятных характеристик из исходных изображений. Текущие методы пытаются извлечь индивидуальность и стиль из исходных изображений. Однако "стиль" является широким понятием, которое включает текстуру, цвет и художественные элементы, но не охватывает другие важные характеристики, такие как освещение и динамика. Более того, упрощенная адаптация "стиля" препятствует комбинированию нескольких характеристик из разных источников в одном сгенерированном изображении. В этой работе мы формулируем более эффективный подход к декомпозиции эстетики изображения на конкретные визуальные характеристики, позволяющий пользователям применять такие характеристики, как освещение, текстура и динамика из различных изображений. Для достижения этой цели мы, насколько нам известно, создали первый набор данных визуальных характеристик тонкой настройки (FiVA). Этот набор данных FiVA предлагает хорошо организованную таксономию визуальных характеристик и включает около 1 миллиона высококачественных сгенерированных изображений с аннотациями визуальных характеристик. Используя этот набор данных, мы предлагаем рамочную программу адаптации визуальных характеристик тонкой настройки (FiVA-Adapter), которая декомпозирует и адаптирует визуальные характеристики из одного или нескольких исходных изображений в сгенерированное. Этот подход усиливает удобную настройку, позволяя пользователям избирательно применять желаемые характеристики для создания изображений, которые соответствуют их уникальным предпочтениям и конкретным требованиям содержания.

ACDIT: Интерполирующая Автогрегрессионная Условная Модель и Диффузионный Трансформер

Недавний рост интереса к комплексным мультимодальным моделям потребовал объединения различных модальностей. Однако объединение страдает от разрозненных методологий. Непрерывная визуальная генерация требует применения подхода на основе диффузии полной последовательности, несмотря на его отличия от авторегрессионного моделирования в текстовой области. Мы предполагаем, что авторегрессионное моделирование, то есть предсказание будущего на основе прошлого детерминированного опыта, остается ключевым в разработке как модели визуальной генерации, так и потенциальной объединенной мультимодальной модели. В этой статье мы исследуем интерполяцию между авторегрессионным моделированием и диффузией с полными параметрами для моделирования визуальной информации. В своей основе мы представляем ACDiT, авторегрессионный блочно-условный трансформер диффузии, где размер блока диффузии, то есть размер авторегрессионных единиц, можно гибко регулировать для интерполяции между токеновой авторегрессией и диффузией полной последовательности. ACDiT легко реализовать, настолько же просто, как создание маски внимательности с пропусками (SCAM) во время обучения. Во время интерференции процесс итеративно чередуется между денойзингом диффузии и авторегрессионным декодированием, что позволяет в полной мере использовать KV-кэш. Мы проверяем эффективность ACDiT на задачах генерации изображений и видео. Мы также демонстрируем, что, благодаря авторегрессионному моделированию, ACDiT можно бесшовно использовать в задачах визуального понимания, несмотря на то что он обучался на объективе диффузии. Анализ компромисса между авторегрессионным моделированием и диффузией демонстрирует потенциал ACDiT для использования в задачах визуальной генерации на длительные горизонты. Эти сильные стороны делают его многообещающим как основу для будущих объединенных моделей.

ObjCtrl-2.5D: Объектное управление без обучения с использованием поз камеры

Это исследование направлено на достижение более точного и универсального контроля объектов в генерации «изображение-видео» (I2V). Текущие методы обычно представляют пространственное движение целевых объектов с помощью 2D-траекторий, что часто не удается уловить намерение пользователя и часто приводит к ненатуральным результатам. Чтобы улучшить контроль, мы представляем ObjCtrl-2.5D, подход к контролю объектов без тренировки, который использует 3D-траекторию, расширенную из 2D-траектории с глубинной информацией, в качестве управляющего сигнала. Моделируя движение объекта как движение камеры, ObjCtrl-2.5D представляет 3D-траекторию как последовательность поз камеры, что позволяет управлять движением объекта с помощью существующей модели управления движением камеры для генерации I2V (CMC-I2V) без обучения. Чтобы адаптировать модель CMC-I2V, изначально предназначенную для глобального контроля движения, для обработки локального движения объектов, мы вводим модуль для изоляции целевого объекта от фона, что позволяет независимый локальный контроль. В дополнение мы разрабатываем эффективный способ достижения более точного контроля объектов, деля низкочастотные искаженные латентные данные в области объекта по кадрам. Широкие эксперименты показывают, что ObjCtrl-2.5D значительно улучшает точность контроля объектов по сравнению с методами без тренировки и предлагает более разнообразные возможности управления, чем подходы на основе обучения с использованием 2D-траекторий, позволяя создавать сложные эффекты, такие как вращение объектов. Код и результаты доступны на https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

STIV: Масштабируемая генерация видео с учетом текста и изображений

Сфера генерации видео сделала замечательные успехи, однако существует настоятельная необходимость в четком, систематическом рецепте, который может направлять разработку надежных и масштабируемых моделей. В этой работе мы представляем всестороннее исследование, которое систематически изучает взаимосвязь архитектур моделей, рецептов обучения и стратегий кураторства данных, завершаясь простым и масштабируемым методом генерации видео, основанным на текстовых изображениях, названным STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадров, одновременно включая текстовое условие с помощью совместного классификатора на основе изображения и текста без управления. Этот дизайн позволяет STIV одновременно выполнять задачи генерации видео из текста (T2V) и генерации видео из текста и изображений (TI2V). Кроме того, STIV легко расширяется для различных приложений, таких как предсказание видео, интерполяция кадров, многослойная генерация и генерация длинных видео и т.д. Благодаря комплексным абляционным исследованиям T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на его простую структуру. Модель с 8.7B параметрами с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Модель такого же размера также достигает рекордного результата 90.1 на задаче VBench I2V с разрешением 512. Предлагая прозрачный и расширяемый рецепт для создания современных моделей генерации видео, мы стремимся поддержать будущие исследования и ускорить прогресс к более универсальным и надежным решениям в области генерации видео.

3DTrajMaster: Мастерство 3D-траекторий для многосущностного движения в генерации видео

Данная работа направлена на манипулирование многосущностными 3D-движениями в генерации видео. Предыдущие методы контролируемой генерации видео в основном используют 2D сигналы управления для манипуляции движениями объектов и достигли замечательных результатов синтеза. Однако 2D сигналы управления по своей природе ограничены в способности выражать 3D характер движений объектов. Чтобы преодолеть эту проблему, мы представляем 3DTrajMaster, надежный контроллер, который регулирует динамику многосущностей в 3D пространстве, основываясь на желаемых пользователем последовательностях позы в 6DoF (расположение и вращение) объектов. В центре нашего подхода находится объектный инжектор, основанный на 3D-движении с возможностью подключения и использования, который объединяет несколько входных сущностей с их соответствующими 3D траекториями через механизм самовнимания с затвором. Кроме того, мы используем архитектуру инжектора для сохранения приоритета диффузии видео, что имеет решающее значение для способности обобщения. Чтобы смягчить ухудшение качества видео, мы вводим адаптер домена во время обучения и применяем стратегию отжима во время вывода. В ответ на нехватку подходящих обучающих данных мы создаем датасет 360-Motion, который в первую очередь коррелирует собранные 3D активы человека и животных с траекторией, сгенерированной GPT, а затем фиксирует их движение с помощью 12 равномерно расположенных камер на различных 3D платформах UE. Обширные эксперименты показывают, что 3DTrajMaster устанавливает новый уровень производительности как в точности, так и в способности обобщения для управления многосущностными 3D движениями. Страница проекта: http://fuxiao0719.github.io/projects/3dtrajmaster

UniReal: Универсальная генерация и редактирование изображений с помощью изучения реальных динамик

Мы представляем UniReal, унифицированную платформу, разработанную для решения различных задач генерации и редактирования изображений. Существующие решения часто различаются по задачам, однако они имеют общие принципы: сохранение согласованности между входами и выходами, а также захват визуальных вариаций. Вдохновленные недавними моделями генерации видео, которые эффективно балансируют между согласованностью и вариацией на протяжении кадров, мы предлагаем унифицирующий подход, который рассматривает задачи на уровне изображений как несоответствующую генерацию видео. В частности, мы рассматриваем различное количество входных и выходных изображений как кадры, что обеспечивает бесшовную поддержку задач, таких как генерация изображений, редактирование, настройка, композиция и т. д. Хотя UniReal разработан для задач на уровне изображений, мы используем видео как масштабируемый источник универсального надзора. UniReal изучает динамику мира на основе крупномасштабных видео, демонстрируя продвинутую способность справляться с тенями, отражениями, изменениями позы и взаимодействием объектов, а также проявляя возникшую способность к новым приложениям.

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.