Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "text"

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.

SwiftEdit: Молниеносное текстовое редактирование изображений с помощью одношагового диффузионного подхода

Недавние достижения в редактировании изображений по текстовому запросу позволяют пользователям вносить изменения в изображения с помощью простых текстовых вводов, используя обширные предварительные данные многошаговых диффузионных текстово-изображенческих моделей. Однако эти методы часто не соответствуют требованиям скорости, необходимым для реальных приложений и приложений на устройствах, из-за дорогостоящего многошагового процесса инверсии и выборки. В ответ на это мы представляем SwiftEdit, простой, но очень эффективный инструмент редактирования, который обеспечивает мгновенное редактирование изображений по текстовому запросу (за 0,23 с). Преимущество SwiftEdit заключается в двух новых вкладах: рамке одношаговой инверсии, которая обеспечивает одношаговую реконструкцию изображения посредством инверсии, и технике редактирования с маской с нашим предложенным механизмом повторного масштабирования внимания для выполнения локализованного редактирования изображений. Проведены обширные эксперименты, чтобы продемонстрировать эффективность и скорость работы SwiftEdit. В частности, SwiftEdit обеспечивает мгновенное редактирование изображений по текстовому запросу, которое в несколько раз быстрее предыдущих многошаговых методов (как минимум в 50 раз быстрее) при этом сохраняя конкурентоспособные результаты редактирования. Страница нашего проекта: https://swift-edit.github.io/.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.