Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "detection"

Устойчивость к исключениям в коде: Применение LLM и многоагентной системы Seeker

В реальной разработке программного обеспечения неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и устойчивость кода. Механизмы обработки исключений требуют от разработчиков выявления, захвата и управления исключениями в соответствии с высокими стандартами, однако многие разработчики сталкиваются с трудностями в этих задачах, что приводит к хрупкому коду. Эта проблема особенно очевидна в проектах с открытым исходным кодом и влияет на общее качество программного обеспечения. Чтобы решить эту проблему, мы исследуем использование больших языковых моделей (LLM) для улучшения обработки исключений в коде. В результате обширного анализа мы выявили три основные проблемы: нечувствительное обнаружение хрупкого кода, неточный захват блока исключений и искаженное решение по обработке. Эти проблемы распространены среди реальных репозиториев, что указывает на то, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ на это мы предлагаем Seeker, многоагентную структуру, вдохновленную стратегиями экспертных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Датчик, Хищник, Ранжировщик и Обработчик, чтобы помочь LLM более эффективно выявлять, захватывать и разрешать исключения. Наша работа является первым систематическим исследованием о том, как использовать LLM для улучшения практик обработки исключений в реальных сценариях разработки, предоставляя ценные идеи для будущих улучшений надежности кода.

Двухступенчатая надежная водяная марка для изображений

Поскольку качество генераторов изображений продолжает улучшаться, дипфейки становятся темой значительных общественных дебатов. Водяная маркировка изображений позволяет ответственным владельцам моделей обнаруживать и помечать свой контент, сгенерированный ИИ, что может смягчить ущерб. Тем не менее, современные передовые методы водяной маркировки изображений остаются уязвимыми к подделкам и атакам на удаление. Эта уязвимость частично возникает из-за того, что водяные знаки искажают распределение сгенерированных изображений, непреднамеренно раскрывая информацию о методах водяной маркировки. В данной работе мы сначала демонстрируем метод маркировки без искажений для изображений, основанный на начальном шуме диффузионной модели. Тем не менее, для обнаружения водяного знака необходимо сравнить восстановленный начальный шум для изображения со всеми ранее использованными начальными шумами. Чтобы смягчить эти проблемы, мы предлагаем двухступенчатую структуру водяной маркировки для эффективного обнаружения. Во время генерации мы увеличиваем начальный шум с помощью сгенерированных фурье-узоров, чтобы внедрить информацию о группе начальных шумов, которые мы использовали. Для обнаружения мы (i) извлекаем соответствующую группу шумов и (ii) ищем в данной группе начальный шум, который может соответствовать нашему изображению. Этот подход водяной маркировки достигает передовой устойчивости к подделкам и удалению против большого количества атак.

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

Код как Монитор: Осознание Ограничений в Визуальном Программировании для Реактивного и Проактивного Обнаружения Ошибок Роботов

Автоматическое обнаружение и предотвращение сбоев открытого множества имеют решающее значение в системах робототехники с замкнутым циклом. Недавние исследования часто сталкиваются с трудностями при одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых проактивно. С этой целью мы предлагаем Code-as-Monitor (CaM), новую парадигму, использующую модель визуального языка (VLM) как для реактивного, так и для проактивного обнаружения сбоев открытого множества. Основой нашего метода является формулирование обеих задач как единого набора задач удовлетворения пространственно-временных ограничений и использование кода, сгенерированного VLM, для их оценки в режиме реального времени. Для повышения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют связанные с ограничениями сущности или их части в компактные геометрические элементы. Этот подход предлагает большую универсальность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы как визуальные подсказки. Эксперименты показывают, что CaM достигает на 28,7% более высокой степени успеха и снижает время выполнения на 31,8% в условиях сильных помех по сравнению с базовыми показателями в трех симуляторах и в реальных условиях. Более того, CaM можно интегрировать с политиками управления открытым циклом для формирования замкнутых систем, что позволяет выполнять долгосрочные задачи в загроможденных сценах с динамическими условиями.

VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

Обнаружение видеогармонии и извлечение моментов (HD/MR) имеют важное значение в анализе видео. Недавние модели предсказания, основанные на трансформерах, часто упускают из виду динамику между задачами и согласование и уточнение видео и текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальным показателям в захвате взаимозависимости между видео и текстовыми модальностями. Хотя большие языковые и языковые-видевые модели (LLM/LVLMs) стали более заметными в различных областях, их применение в этой области остаётся относительно недостаточно исследованным. Мы предлагаем VideoLights, новую HD/MR платформу, которая решает эти ограничения через (i) полноразмерные модули проекции и уточнения функций с потерей согласования для лучшего согласования видео-текстовых функций, (ii) двунаправленную сеть кросс-модального слияния для сильно связанного запроса с учетом представлений клипов, и (iii) однонаправленный механизм обратной связи для совместных задач, который усиливает обе задачи через корреляцию. В дополнение к этому, (iv) мы вводим жёсткие положительные/отрицательные потери для адаптивного штрафования ошибок и улучшенного обучения, и (v) используем LVLMs, такие как BLIP-2, для улучшенной мультимодальной интеграции функций и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLMs. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют состояние на индексе состояния. Код и модели доступны на https://github.com/dpaul06/VideoLights.

Совместная навигация экземпляров: использование саморазговора агента для минимизации ввода пользователя

Существующие задачи навигации по целям экземпляров, основанные на естественном языке, предполагают, что пользователи предоставляют полные и нюансированные описания экземпляров перед навигацией, что может быть непрактично в реальном мире, поскольку человеческие инструкции могут быть краткими и неоднозначными. Чтобы преодолеть этот разрыв, мы предлагаем новую задачу — Совместная навигация по экземплярам (CoIN), с динамическим взаимодействием агента и человека во время навигации для активного разрешения неопределенностей о целевом экземпляре в естественных, свободных от шаблонов, открытых диалогах. Для решения задачи CoIN мы предлагаем новый метод — Взаимодействие агента и пользователя с Осознанием Неопределенности (AIUTA), использующий восприятие возможностей Моделей Визуального Языка (VLM) и возможности Больших Языковых Моделей (LLM). Сначала, после обнаружения объекта, модель Само-Вопросителя инициирует самодиалог для получения полного и точного описания наблюдения, в то время как новая техника оценки неопределенности уменьшает неаккуратное восприятие VLM. Затем модуль Триггер Взаимодействия решает, следует ли задать вопрос пользователю, продолжать или остановить навигацию, минимизируя ввод пользователя. Для оценки мы представляем CoIN-Bench, эталон, поддерживающий как реальных, так и смоделированных людей. AIUTA демонстрирует конкурентоспособные результаты в навигации по экземплярам по сравнению с передовыми методами, проявляя большую гибкость в обработке пользовательских вводов.

Направления в детекции аудио-абьюза на разных языках с использованием методов обучения с малым количеством примеров

Обнаружение оскорбительного контента в Интернете, особенно в условиях ограниченных ресурсов и в аудиомодальности, остается недостаточно исследованным. Мы исследуем потенциал предобученных аудиопредставлений для обнаружения оскорбительного языка на языках с ограниченными ресурсами, в данном случае на индийских языках, используя метод обучения с несколькими образцами (Few Shot Learning, FSL). Используя мощные представления из таких моделей, как Wav2Vec и Whisper, мы изучаем кросс-языковое обнаружение оскорблений, используя набор данных ADIMA с FSL. Наш подход интегрирует эти представления в рамки обучения с метаобучением, независимого от модели (Model-Agnostic Meta-Learning, MAML), для классификации оскорбительного языка на 10 языках. Мы проводим эксперименты с различными размерами образцов (50-200), оценивая влияние ограниченных данных на производительность. Кроме того, было проведено исследование визуализации признаков, чтобы лучше понять поведение модели. Это исследование подчеркивает способность предобученных моделей к обобщению в сценариях с ограниченными ресурсами и предоставляет ценные идеи для обнаружения оскорбительного языка в многозначных контекстах.

ChatRex: Объединение восприятия и понимания в многомодальных больших языковых моделях

Перception и понимание — два столба компьютерного зрения. В то время как многомодальные большие языковые модели (MLLM) продемонстрировали замечательные возможности визуального понимания, им, возможно, недостает точных восприятий, например, модель Qwen2-VL только достигает 43,9% коэффициента полноты на наборе данных COCO, что ограничивает многие задачи, требующие сочетания восприятия и понимания. В этой работе мы стремимся сократить этот разрыв в восприятии как с точки зрения проектирования модели, так и разработки данных. Сначала мы представляем ChatRex, MLLM с раздельным дизайном восприятия. Вместо того чтобы позволить LLM непосредственно предсказывать координаты коробок, мы передаем выходные коробки из универсальной сети предложений в LLM, позволяя ему выводить соответствующие индексы коробок, представляющие его результаты обнаружения, превращая задачу регрессии в основанную на извлечении задачу, с которой LLM справляется более эффективно. С точки зрения данных мы создаем полностью автоматизированный движок данных и конструируем набор данных Rexverse-2M, который обладает несколькими градуировками, чтобы поддерживать совместное обучение восприятию и пониманию. После стандартного двухэтапного обучения ChatRex демонстрирует сильные возможности восприятия, сохраняя при этом производительность многомодального понимания. Сочетание этих двух возможностей одновременно открывает множество привлекательных приложений, демонстрируя взаимодополняющие роли восприятия и понимания в MLLM. Код доступен по адресу https://github.com/IDEA-Research/ChatRex.

Защита от ИИ-апокалипсиса: Переоценка методов обнаружения AI-сгенерированных изображений

Распространение методов ИИ для генерации изображений, а также их возрастающая доступность, вызывают серьёзные опасения по поводу потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, созданных ИИ (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы утверждаем, что современные методы AGID недостаточно эффективны для обнаружения современных изображений, созданных ИИ, и призываем к комплексной переоценке этих методов. Мы представляем Визуальный Контрольный Тьюринг Тест (VCT^2), который является эталонным тестом, включающим около 130 тыс. изображений, сгенерированных современными моделями текст-картинка (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, полученных из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем эффективность вышеупомянутых методов AGID на эталоне VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных ИИ. По мере того как модели генерации изображений ИИ продолжают развиваться, необходимость в количественной рамке для их оценки становится всё более критичной. Для удовлетворения этой потребности мы предлагаем Визуальный Индекс ИИ (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и когерентность объектов, устанавливая новый стандарт для оценки моделей генерации изображений ИИ. Для стимулирования исследований в этой области мы делаем наши наборы данных https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI общедоступными.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

Улучшение выявления технических долгов в исходном коде Java с помощью обогащенного набора данных

Технический долг (TD) — это термин, используемый для описания дополнительной работы и затрат, которые возникают, когда разработчики выбирают быстрое и легкое решение проблемы, вместо более эффективного и продуманного, но требующего времени подхода. Самопризнанные технические долги (SATD) представляют собой особый вид технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самопризнанные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих методов сосредотачиваются на захвате ключевых токенов, связанных с различными категориями TD, пренебрегая богатой информацией, встроенной в сам исходный код. Недавние исследования были направлены на обнаружение SATD путем анализа комментариев, встроенных в исходный код, и было проведено мало работ, касающихся технических долгов, содержащихся в исходном коде. Чтобы заполнить этот пробел, в данном исследовании, через анализ комментариев и их связанного исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы создали первый набор данных технических долгов, идентифицированных через комментарии к коду, вместе с соответствующим исходным кодом. В ходе эмпирической оценки мы выяснили, что комментарии из полученного набора данных помогают улучшить производительность прогнозирования моделей обнаружения SATD. Более важно, что включение классифицированного исходного кода значительно улучшает точность прогнозирования различных типов технических долгов. В этом смысле наша работа двойственна: (i) Мы верим, что наш набор данных будет катализатором для будущих работ в данной области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технических долгов; (ii) Предложенные классификаторы могут служить базовыми моделями для других исследований по обнаружению TD с помощью созданного набора данных.

GazeGen: Революция в Визуальном Контенте с Помощью Взгляда

Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.

Связь между точностью обнаружения объектов, визуальной салиентностью и оценкой глубины

По мере развития методов обнаружения объектов, понимание их взаимосвязей с комплементарными визуальными задачами становится критически важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя основными визуальными задачами: предсказанием глубины и предсказанием визуальной значимости. Через обширные эксперименты с использованием моделей последнего поколения (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC, мы обнаружили, что визуальная значимость демонстрирует более сильные корреляции с точностью обнаружения объектов (mArho до 0.459 на Pascal VOC), по сравнению с предсказанием глубины (mArho до 0.283). Наш анализ выявил значительные вариации этих корреляций между категориями объектов, где большие объекты показывают значения корреляции в три раза выше, чем маленькие объекты. Эти результаты предполагают, что включение признаков визуальной значимости в архитектуры обнаружения объектов может быть более выгодным, чем информация о глубине, особенно для определённых категорий объектов. Обнаруженные вариации, специфичные для категорий, также предоставляют понимание для целенаправленной инженерии признаков и улучшений в дизайне наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.

Подход на основе сети указателей для совместной извлечения и обнаружения многометочных многоклассовых намерений

В задачно-ориентированных диалоговых системах распознавание намерений является ключевым для интерпретации запросов пользователя и предоставления соответствующих ответов. Существующие исследования в основном рассматривают простые запросы с единственным намерением, не предлагая эффективных систем для обработки сложных запросов с несколькими намерениями и извлечения различных сегментов намерений. Кроме того, отсутствуют многоязычные, многонамеренные наборы данных. Данное исследование охватывает три критических аспекта: извлечение нескольких сегментов намерений из запросов, обнаружение нескольких намерений и разработку многоязычного набора данных с множественными метками намерений. Мы представляем новый набор данных для многомерной многоклассовой классификации намерений (MLMCID-dataset), созданный на основе существующих эталонных наборов данных. Также мы предлагаем архитектуру на основе указательной сети (MLMCID) для извлечения сегментов намерений и обнаружения множества намерений с использованием грубых и детализированных меток в форме секстетов. Комплексный анализ показывает превосходство нашей системы, основанной на указательной сети, над базовыми подходами в отношении точности и F1-оценки на различных наборах данных.