Ай Дайджест - категория augmentation

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

2024-12-17temporal diffusion augmentation

Двухступенчатая надежная водяная марка для изображений

Поскольку качество генераторов изображений продолжает улучшаться, дипфейки становятся темой значительных общественных дебатов. Водяная маркировка изображений позволяет ответственным владельцам моделей обнаруживать и помечать свой контент, сгенерированный ИИ, что может смягчить ущерб. Тем не менее, современные передовые методы водяной маркировки изображений остаются уязвимыми к подделкам и атакам на удаление. Эта уязвимость частично возникает из-за того, что водяные знаки искажают распределение сгенерированных изображений, непреднамеренно раскрывая информацию о методах водяной маркировки. В данной работе мы сначала демонстрируем метод маркировки без искажений для изображений, основанный на начальном шуме диффузионной модели. Тем не менее, для обнаружения водяного знака необходимо сравнить восстановленный начальный шум для изображения со всеми ранее использованными начальными шумами. Чтобы смягчить эти проблемы, мы предлагаем двухступенчатую структуру водяной маркировки для эффективного обнаружения. Во время генерации мы увеличиваем начальный шум с помощью сгенерированных фурье-узоров, чтобы внедрить информацию о группе начальных шумов, которые мы использовали. Для обнаружения мы (i) извлекаем соответствующую группу шумов и (ii) ищем в данной группе начальный шум, который может соответствовать нашему изображению. Этот подход водяной маркировки достигает передовой устойчивости к подделкам и удалению против большого количества атак.

2024-12-11robustness distortion vulnerability

MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.

2024-12-04robustness framework augmentation

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

2024-12-03synthesis augmentation video

Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний

Система верификации говорящего (SV) предлагает услугу аутентификации, предназначенную для подтверждения того, принадлежит ли данный образец речи конкретному говорящему. Эта технология открыла путь для различных персонализированных приложений, которые учитывают индивидуальные предпочтения. Кажущейся задачей, с которой сталкиваются системы SV, является их способность последовательно работать в диапазоне эмоциональных спектров. Большинство существующих моделей демонстрируют высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. В результате это явление часто приводит к пропуску речи, представляющей интерес. Эта проблема в первую очередь связана с ограниченной доступностью помеченных данных эмоциональной речи, что препятствует разработке надежных представлений говорящих, охватывающих различные эмоциональные состояния. Чтобы решить эту проблему, мы предлагаем новый подход, использующий фреймворк CycleGAN в качестве метода увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя уникальную вокальную идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого увеличенного набора данных, последовательно превосходят базовые модели в задаче верификации говорящих в сценариях эмоциональной речи, снижая равную вероятность ошибки до 3,64%.

2024-12-03augmentation models emotions

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

2024-12-02learning dataset reasoning

Обучение и оценка языковых моделей с использованием шаблонной генерации данных

2024-11-28reasoning processing datasets

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

2024-11-20clip benchmark language

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

2024-11-04accuracy dataset encoding