Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "robustness"

Устойчивость к исключениям в коде: Применение LLM и многоагентной системы Seeker

В реальной разработке программного обеспечения неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и устойчивость кода. Механизмы обработки исключений требуют от разработчиков выявления, захвата и управления исключениями в соответствии с высокими стандартами, однако многие разработчики сталкиваются с трудностями в этих задачах, что приводит к хрупкому коду. Эта проблема особенно очевидна в проектах с открытым исходным кодом и влияет на общее качество программного обеспечения. Чтобы решить эту проблему, мы исследуем использование больших языковых моделей (LLM) для улучшения обработки исключений в коде. В результате обширного анализа мы выявили три основные проблемы: нечувствительное обнаружение хрупкого кода, неточный захват блока исключений и искаженное решение по обработке. Эти проблемы распространены среди реальных репозиториев, что указывает на то, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ на это мы предлагаем Seeker, многоагентную структуру, вдохновленную стратегиями экспертных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Датчик, Хищник, Ранжировщик и Обработчик, чтобы помочь LLM более эффективно выявлять, захватывать и разрешать исключения. Наша работа является первым систематическим исследованием о том, как использовать LLM для улучшения практик обработки исключений в реальных сценариях разработки, предоставляя ценные идеи для будущих улучшений надежности кода.

ByteLatentTransformer: Новая эра в архитектуре LLM

Мы представляем Byte Latent Transformer (BLT) — новую архитектуру LLM на уровне байтов, которая впервые достигает производительности LLM на основе токенизации в масштабе с существенными улучшениями в эффективности вывода и надежности. BLT кодирует байты в патчи динамического размера, которые служат основными единицами вычислений. Патчи сегментируются на основе энтропии следующего байта, выделяя больше вычислительных мощностей и возможностей модели там, где необходимость в увеличении сложности данных требует этого. Мы представляем первое исследование о масштабировании моделей на уровне байтов с контролируемым количеством операций с плавающей запятой (FLOP) до 8 миллиардов параметров и 4 триллионов обучающих байтов. Наши результаты демонстрируют возможность масштабирования моделей, обученных на сырых байтах без фиксированного словаря. Эффективность как обучения, так и вывода улучшается благодаря динамическому выбору длинных патчей, когда данные предсказуемы, наряду с качественными улучшениями в способности к рассуждению и обобщению в условиях длинного хвоста. В целом, при фиксированных затратах на вывод, BLT демонстрирует значительно лучшее масштабирование по сравнению с моделями на основе токенизации, одновременно увеличивая как размер патчей, так и размер модели.

VividFace: Диффузионная гибридная система для высококачественного видео-замены лиц

Смена лиц на видео становится все более популярной в различных приложениях, однако существующие методы в основном сосредоточены на статических изображениях и испытывают трудности с заменой лиц на видео из-за временной согласованности и сложных сценариев. В этой статье мы представляем первую основанную на диффузии структуру, специально разработанную для замены лиц на видео. Наш подход вводит новую гибридную структуру обучения изображений и видео, которая использует как обильные статические данные изображений, так и временные видео последовательности, решая врожденные ограничения обучения только на видео. Структура включает специально разработанную диффузионную модель, связанную с VidFaceVAE, которая эффективно обрабатывает оба типа данных, чтобы лучше поддерживать временную согласованность генерируемых видео. Чтобы дополнительно разъединить идентичность и позу, мы создаем набор данных Attribute-Identity Disentanglement Triplet (AIDT), в котором каждый тройник состоит из трех лицевых изображений, два из которых имеют одинаковую позу, а два имеют одинаковую идентичность. Улучшенный с помощью комплексного увеличения окклюзии, этот набор данных также повышает устойчивость к окклюзиям. Кроме того, мы интегрируем технологии 3D-реконструкции в качестве условия ввода в нашу сеть для обработки больших вариаций позы. Обширные эксперименты показывают, что наша структура достигает превосходных результатов в сохранении идентичности, временной согласованности и визуального качества по сравнению с существующими методами, при этом требуя меньше шагов вывода. Наш подход эффективно смягчает ключевые проблемы в замене лиц на видео, включая временные мерцания, сохранение идентичности и устойчивость к окклюзиям и вариациям поз.

Двухступенчатая надежная водяная марка для изображений

Поскольку качество генераторов изображений продолжает улучшаться, дипфейки становятся темой значительных общественных дебатов. Водяная маркировка изображений позволяет ответственным владельцам моделей обнаруживать и помечать свой контент, сгенерированный ИИ, что может смягчить ущерб. Тем не менее, современные передовые методы водяной маркировки изображений остаются уязвимыми к подделкам и атакам на удаление. Эта уязвимость частично возникает из-за того, что водяные знаки искажают распределение сгенерированных изображений, непреднамеренно раскрывая информацию о методах водяной маркировки. В данной работе мы сначала демонстрируем метод маркировки без искажений для изображений, основанный на начальном шуме диффузионной модели. Тем не менее, для обнаружения водяного знака необходимо сравнить восстановленный начальный шум для изображения со всеми ранее использованными начальными шумами. Чтобы смягчить эти проблемы, мы предлагаем двухступенчатую структуру водяной маркировки для эффективного обнаружения. Во время генерации мы увеличиваем начальный шум с помощью сгенерированных фурье-узоров, чтобы внедрить информацию о группе начальных шумов, которые мы использовали. Для обнаружения мы (i) извлекаем соответствующую группу шумов и (ii) ищем в данной группе начальный шум, который может соответствовать нашему изображению. Этот подход водяной маркировки достигает передовой устойчивости к подделкам и удалению против большого количества атак.

Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

Мы предлагаем незаметный многобитный текстовый водяной знак, внедренный путем перефразирования с помощью LLM. Мы дообучаем пару LLM-перефразировщиков, которые разработаны так, чтобы вести себя по-разному, чтобы их различия в перефразировании, отраженные в семантике текста, могли быть распознаны обученным декодером. Чтобы встроить наш многобитный водяной знак, мы используем двух перефразировщиков поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера, чтобы расшифровать каждый бит водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99% AUC обнаружения с небольшими (1,1B) текстовыми перефразировщиками при сохранении семантической информации оригинального предложения. Более того, наш конвейер устойчив к замене слов и возмущениям перефразирования предложений и хорошо обобщается на данных вне распределения. Мы также демонстрируем невидимость нашего водяного знака с помощью оценки на основе LLM. Мы публикуем код с открытым исходным кодом: https://github.com/xiaojunxu/multi-bit-text-watermark.

MaskRIS: Устойчивое к семантическим искажениям дополнение данных для сегментации изображений по ссылкам

Сегментация изображений по ссылкам (RIS) является продвинутой задачей визуализации и языка, которая включает в себя идентификацию и сегментацию объектов на изображении, как описано в свободных текстовых описаниях. В то время как предыдущие исследования сосредотачивались на согласовании визуальных и языковых характеристик, изучение техник обучения, таких как увеличение данных, остается недостаточно исследованным. В этой работе мы исследуем эффективное увеличение данных для RIS и предлагаем новую архитектуру обучения, называемую сегментацией изображений по ссылкам с масками (MaskRIS). Мы наблюдаем, что традиционные методы увеличения изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простое случайное маскирование значительно улучшает производительность RIS. MaskRIS использует как маскирование изображений, так и текстов, за которым следует контекстное обучение с учетом искажений (DCL), чтобы полностью использовать преимущества стратегии маскирования. Этот подход может улучшить устойчивость модели к частичному закрытию, неполной информации и различным языковым сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS может быть легко применен к различным моделям RIS, превосходя существующие методы как в полностью контролируемых, так и в слабо контролируемых условиях. Наконец, MaskRIS достигает нового уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по адресу https://github.com/naver-ai/maskris.

TAPTRv3: Улучшение отслеживания точек в длинных видео

В данной работе мы представляем TAPTRv3, который основан на TAPTRv2 и направлен на улучшение его устойчивости к отслеживанию точек в длинных видео. TAPTRv2 представляет собой простую архитектуру, аналогичную DETR, которая может точно отслеживать любую точку в реальных видеоматериалах без необходимости использования объема затрат. TAPTRv3 улучшает TAPTRv2, устраняя его недостаток в запрашивании высококачественных признаков из длинных видео, где целевые точки отслеживания обычно подвергаются увеличивающимся изменениям со временем. В TAPTRv3 мы предлагаем использовать как пространственный, так и временной контекст для более качественного запрашивания признаков по пространственным и временным измерениям для более надежного отслеживания в длинных видео. Для лучшего запрашивания пространственных признаков мы представляем Контекстно-осознающее Перекрестное Внимание (CCA), которое использует окружающий пространственный контекст для повышения качества значений внимания при запросе признаков изображения. Для лучшего запрашивания временных признаков мы вводим Внимание с учетом Видимости на Долгом Времени (VLTA), чтобы проводить временное внимание ко всем прошлым кадрам с учетом их соответствующих видимостей, что эффективно решает проблему смещения признаков в TAPTRv2, вызванную его RNN-подобным долгосрочным моделированием. TAPTRv3 значительно превосходит TAPTRv2 на большинстве сложных наборов данных и достигает передовой производительности. Даже по сравнению с методами, обученными на данных большого масштаба, TAPTRv3 по-прежнему остается конкурентоспособным.

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

Водяные знаки в локализованных сообщениях: Обзор модели WAM

Методы наложения водяных знаков на изображения не адаптированы для обработки малых водяных знаковых областей. Это ограничивает применение в реальных сценариях, где части изображения могут поступать из разных источников или были отредактированы. Мы представляем модель глубокого обучения для локализованного наложения водяных знаков, названную Моделью Наложения Водяных Знаков (WAM). Встраиватель WAM неуловимо изменяет входное изображение, в то время как экстрактор разделяет полученное изображение на водяные знаковые и неводяные зоны и извлекает одно или несколько скрытых сообщений из областей, где были обнаружены водяные знаки. Модели обучаются совместно на низком разрешении и без перцептивных ограничений, затем дополнительно обучаются на незаметность и на возможность наложения множественных водяных знаков. Эксперименты показывают, что WAM конкурентоспособен с лучшими методами по незаметности и устойчивости, особенно против восстановления и монтажа, даже на изображениях высокого разрешения. Более того, он предлагает новые возможности: WAM может локализовать водяные знаковые области на монтированных изображениях и извлекать различные 32-битные сообщения с ошибкой менее 1 бита из нескольких малых областей - не более 10% поверхности изображения - даже для маленьких изображений 256x256.

Обнаружение и смягчение ложных корреляций в моделях обработки изображений и языка

Модели, объединяющие зрение и язык (VLM), которые были тонко настроены, часто улавливают ложные корреляции между чертами изображения и текстовыми атрибутами, что приводит к снижению эффективности нулевого шага на этапе тестирования. Существующие методы для устранения ложных корреляций (i) в основном работают на уровне всего изображения, а не вмешиваются непосредственно в детализированные черты изображения, и (ii) в большинстве своем разработаны для одномодальных условий. В данной работе мы представляем RaVL, который рассматривает устойчивость VLM с детализированной точки зрения, обнаруживая и устраняя ложные корреляции с использованием локальных черт изображения, а не работая на уровне всего изображения. При наличии тонко настроенной VLM, RaVL сначала обнаруживает ложные корреляции, используя подход кластеризации на уровне регионов для выявления точных черт изображения, способствующих ошибкам нулевого шага в классификации. Затем, RaVL устраняет выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, которая позволяет VLM сосредоточиться на релевантных областях и игнорировать ложные связи во время тонкой настройки. Мы оцениваем RaVL на 654 VLM с различными архитектурами моделей, областями данных и изученными ложными корреляциями. Наши результаты показывают, что RaVL точно обнаруживает (улучшение на 191% по сравнению с ближайшим базовым уровнем) и устраняет (улучшение на 8.2% по точности классификации в худшей группе изображений) ложные корреляции. Качественные оценки на VLM общего назначения и медицинской области подтверждают наши выводы.

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.