Ай Дайджест - категория classifier

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

2024-12-11diffusion distillation adversarial

Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

Мы предлагаем незаметный многобитный текстовый водяной знак, внедренный путем перефразирования с помощью LLM. Мы дообучаем пару LLM-перефразировщиков, которые разработаны так, чтобы вести себя по-разному, чтобы их различия в перефразировании, отраженные в семантике текста, могли быть распознаны обученным декодером. Чтобы встроить наш многобитный водяной знак, мы используем двух перефразировщиков поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера, чтобы расшифровать каждый бит водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99% AUC обнаружения с небольшими (1,1B) текстовыми перефразировщиками при сохранении семантической информации оригинального предложения. Более того, наш конвейер устойчив к замене слов и возмущениям перефразирования предложений и хорошо обобщается на данных вне распределения. Мы также демонстрируем невидимость нашего водяного знака с помощью оценки на основе LLM. Мы публикуем код с открытым исходным кодом: https://github.com/xiaojunxu/multi-bit-text-watermark.

2024-12-10watermark decoder llm

Infinity: Масштабирование битового автогрегативного моделирования для синтеза изображений высокого разрешения

Мы представляем Infinity, битовый визуальный авторегрессионный моделирование, способное генерировать изображения высокого разрешения и фотореалистичности, следуя языковым инструкциям. Infinity переопределяет визуальную авторегрессионную модель в рамках предсказания битовых токенов с бесконечным словарным токенизатором и классификатором, а также механизмом самокоррекции, что значительно улучшает способность генерации и детали. Теоретически увеличивая размер словаря токенизатора до бесконечности и одновременно увеличивая размер трансформера, наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычным VAR. Infinity устанавливает новый рекорд для авторегрессионных моделей текстов в изображения, превосходя модели диффузии высшего уровня, такие как SD3-Medium и SDXL. Примечательно, что Infinity превосходит SD3-Medium, улучшая оценку GenEval с 0,62 до 0,73 и оценку ImageReward с 0,87 до 0,96, достигая коэффициента победы в 66%. Без дополнительной оптимизации Infinity генерирует изображение высокого качества 1024x1024 за 0,8 секунды, что делает его в 2,6 раз быстрее SD3-Medium и устанавливает его как самую быструю модель текстов в изображения. Модели и коды будут опубликованы для содействия дальнейшему исследованию Infinity для визуальной генерации и единого моделирования токенизаторов.

2024-12-06modeling classifier generation

Гибкая методология разработки защитных механизмов для крупных языковых моделей: применение к обнаружению офф-топик запросов

Крупные языковые модели склонны к нецелевому использованию, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Текущие ограничительные механизмы, которые часто опираются на курированные примеры или специализированные классификаторы, страдают от высокого уровня ложноположительных срабатываний, ограниченной адаптации и нецелесообразности требования реальных данных, которые недоступны на стадии предварительного производства. В данной статье мы представляем гибкую методологию разработки ограничительных механизмов без использования данных, которая решает эти проблемы. Определяя проблемное пространство качественно и передавая эту информацию в языковую модель для генерации разнообразных запросов, мы создаем синтетический набор данных для тестирования и обучения ограничительных механизмов, которые превосходят эвристические подходы. Кроме того, формулируя задачу как классификацию релевантности пользовательского запроса относительно системного запроса, наши ограничительные механизмы эффективно обобщают на другие категории нецелевого использования, включая взлом системы и вредоносные запросы. Наконец, мы вносим вклад в эту область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничительных механизмов, предоставляя ценные ресурсы для разработки ограничительных механизмов в предварительно-производственных средах и поддерживая дальнейшие исследования и разработки в области безопасности LLM.

2024-11-25prompt dataset heuristic

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

2024-11-21accuracy benchmark classifier

Улучшение выявления технических долгов в исходном коде Java с помощью обогащенного набора данных

Технический долг (TD) — это термин, используемый для описания дополнительной работы и затрат, которые возникают, когда разработчики выбирают быстрое и легкое решение проблемы, вместо более эффективного и продуманного, но требующего времени подхода. Самопризнанные технические долги (SATD) представляют собой особый вид технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самопризнанные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих методов сосредотачиваются на захвате ключевых токенов, связанных с различными категориями TD, пренебрегая богатой информацией, встроенной в сам исходный код. Недавние исследования были направлены на обнаружение SATD путем анализа комментариев, встроенных в исходный код, и было проведено мало работ, касающихся технических долгов, содержащихся в исходном коде. Чтобы заполнить этот пробел, в данном исследовании, через анализ комментариев и их связанного исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы создали первый набор данных технических долгов, идентифицированных через комментарии к коду, вместе с соответствующим исходным кодом. В ходе эмпирической оценки мы выяснили, что комментарии из полученного набора данных помогают улучшить производительность прогнозирования моделей обнаружения SATD. Более важно, что включение классифицированного исходного кода значительно улучшает точность прогнозирования различных типов технических долгов. В этом смысле наша работа двойственна: (i) Мы верим, что наш набор данных будет катализатором для будущих работ в данной области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технических долгов; (ii) Предложенные классификаторы могут служить базовыми моделями для других исследований по обнаружению TD с помощью созданного набора данных.

2024-11-11classifier detection analysis

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.

2024-11-04training classifier try-on