Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "transfer"

StyleMaster: Устранение проблем стилизации видео с помощью нового подхода

Контроль стиля был популярным в моделях генерации видео. Существующие методы часто генерируют видео, сильно отличающиеся от заданного стиля, вызывают утечку контента и имеют трудности с переводом одного видео в желаемый стиль. Наша первая наблюдение заключается в том, что стадия извлечения стиля имеет значение, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Чтобы добавить текстурные особенности и предотвратить утечку контента, мы фильтруем связанные с контентом патчи, сохраняя стильовые на основе схожести между патчами; для извлечения глобального стиля мы создаем парный стильовый датасет через модельную иллюзию для облегчения контрастивного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на статичных видео, что неявно увеличивает степень стилизации и позволяет нашей модели, обученной на изображениях, бесшовно применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только значительно улучшает как сходство стиля, так и временную согласованность, но и легко обобщается для передачи стиля видео с помощью ControlNet с серой плиткой. Обширные эксперименты и визуализации показывают, что StyleMaster значительно превосходит конкурентов, эффективно генерируя высококачественные стилизованные видео, которые соответствуют текстовому содержанию и близки к стилю эталонных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster.

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.

modeltextstyle

Перенос движения в видео с помощью диффузионных трансформеров

Мы предлагаем DiTFlow, метод переноса движения из эталонного видео на вновь синтезированное, специально разработанный для диффузионных трансформеров (DiT). Сначала мы обрабатываем эталонное видео с помощью предобученного DiT, чтобы проанализировать карты перекрестного внимания между кадрами и извлечь сигнал движения по патчам, называемый Attention Motion Flow (AMF). Мы руководим латентным процессом денойзинга оптимизационным способом, независимым от обучения, оптимизируя латенты с помощью нашей AMF-потери, чтобы генерировать видео, воспроизводящие движение эталонного видео. Мы также применяем нашу стратегию оптимизации к позиционным_embedding трансформеров, что дает нам увеличение возможностей нулевого переноса движения. Мы оцениваем DiTFlow по сравнению с недавно опубликованными методами, превосходя их по нескольким метрикам и оценке людьми.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

LUMINET: Слияние Латентных Интринсиков и Моделей Диффузии для Переноса Освещения в Внутренних Сценах

Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и латентные внутренние представления для эффективной передачи освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует пересвеченную версию исходной сцены, которая захватывает освещение цели. Наш подход делает два ключевых вклада: стратегию кураторства данных на основе модели повторного освещения StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как латентные внутренние свойства исходного изображения, так и латентные экстраинтерные свойства целевого изображения. Мы дополнительно улучшаем передачу освещения с помощью обученного адаптера (MLP), который вводит латентные экстраинтерные свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает латентные представления из двух разных изображений - сохраняя геометрию и альбедо из источника, в то время как передает характеристики освещения из цели. Эксперименты показывают, что наш метод успешно передает сложные феномены освещения, включая бликовые отражения и непрямое освещение, по сценам с различной пространственной компоновкой и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.

PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является обновлением открытой модели языка и зрения (VLM) PaliGemma, основанной на семействе языковых моделей Gemma 2. Мы комбинируем визуальный кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы обеспечить их широкими знаниями для передачи через дообучение. В результате получается семья базовых моделей, охватывающая разные размеры моделей и разрешения, что позволяет нам исследовать факторы, влияющие на эффективность передачи (такие как скорость обучения), и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и разнообразие задач передачи за пределами PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблицы, распознавание молекулярной структуры, распознавание музыкальных партитур, а также длительное детализированное аннотирование и генерацию рентгеновских отчетов, по которым PaliGemma 2 достигает результатов на уровне передовых технологий.

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

SegBook: A Comprehensive Guide to Volumetric Medical Image Segmentation

Компьютерная томография (КТ) является одной из самых популярных модальностей для медицинской визуализации. КТ-изображения внесли наибольший вклад в создание общедоступных наборов данных для задач сегментации объемных медицинских изображений, охватывающих анатомические структуры всего тела. Большое количество изображений КТ всего тела предоставляет возможность предварительно обучать мощные модели, например, STU-Net, обученную в контролируемом режиме, для сегментации множества анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные задачи медицинской сегментации, особенно при сегментации других модальностей и разнообразных целей. Для решения этой проблемы важно создать крупномасштабный эталон для всеобъемлющей оценки условий переноса. Таким образом, мы собрали 87 публичных наборов данных, различающихся по модальности, цели и размеру выборки, для оценки способности к переносу моделей, предварительно обученных на КТ всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения с переносом через модальности и цели. Наши экспериментальные результаты показывают, что (1) может существовать эффект узкого места, связанный с размером набора данных при тонкой настройке, с большим улучшением как на малых, так и на больших наборах данных, чем на средних. (2) Модели, предварительно обученные на КТ всего тела, демонстрируют эффективный перенос модальностей, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на КТ всего тела не только поддерживает высокую производительность в обнаружении структур, но и показывает эффективность в обнаружении поражений, демонстрируя адаптивность по отношению к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения с переносом сможет направить будущие исследования в области сегментации объемных медицинских изображений.

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.

Физика в предсказании следующего токена: Передача информации и энергии в авто-регрессионных моделях

Мы открыли базовые физические принципы в предсказании следующего токена (NTP). Мы идентифицировали закон сохранения информации в NTP и предложили Первый закон информационной ёмкости (IC-1), демонстрирующий, что суть возникновения интеллекта в авторегрессионных моделях по своей сути является процессом передачи информации. Мы также ввели в NTP принцип Ландауэра, сформулировав Второй закон информационной ёмкости (IC-2), который устанавливает связь между обучением авторегрессионных моделей и потреблением энергии. Кроме того, мы представили несколько следствий, имеющих практическое значение для производственных практик. В заключение, мы подтвердили совместимость и дополняемость наших открытий с существующими теориями.

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.