Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "prompt"

Prompt2Perturb: Текстово-ориентированные атакующие методы диффузионного типа для изображений ультразвука молочной железы

Глубокие нейронные сети (DNN) предлагают значительные перспективы для улучшения диагностики рака молочной железы в медицинской визуализации. Однако эти модели крайне подвержены атакам с противодействием – небольшим, незаметным изменениям, которые могут вводить классификаторы в заблуждение, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки полагаются на фиксированные нормы возмущений, которые не совпадают с человеческим восприятием. В contrast, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительных данных, когда эти модели недоступны, ограничивая практическое использование в условиях нехватки данных. Однако в медицинской визуализации это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на недавних достижениях в обучаемых подсказках, мы предлагаем Prompt2Perturb (P2P), новый метод атаки, основанный на языке, способный генерировать значимые примеры атак, движимые текстовыми инструкциями. На этапе обучения подсказкам наш подход использует обучаемые подсказки в текстовом энкодере для создания тонких, но значительных возмущений, которые остаются незаметными, направляя модель к целевым результатам. В отличие от текущих подходов, основанных на обучении подсказкам, наш P2P выделяется тем, что непосредственно обновляет текстовые встраивания, избегая необходимости повторной тренировки диффузионных моделей. Более того, мы используем вывод, что оптимизация только ранних обратных шагов диффузии увеличивает эффективность, при этом обеспечивая, чтобы созданные примеры противодействия включали тонкий шум, сохраняя при этом качество ультразвуковых изображений без введения заметных артефактов. Мы показываем, что наш метод превосходит передовые методы атаки по трем наборам данных ультразвука молочной железы по FID и LPIPS. Более того, созданные изображения выглядят более естественно и более эффективно по сравнению с существующими атаками с противодействием. Наш код будет доступен публике https://github.com/yasamin-med/P2P.

Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Создание аналогий является основополагающим для когнитивной деятельности. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки языковых и когнитивных способностей. Например, завершение аналогий типа "Кислород относится к Газу, как <пусто> относится к <пусто>" требует выявления семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В этой работе мы представляем набор данных из 15 тысяч многовариантных вопросов (MCQA) для завершения пропорциональных аналогий и оцениваем производительность современных крупных языковых моделей (LLM) в различных настройках с усилением знаний. В частности, мы дополняем подсказки тремя типами знаний: образцом, структурированным и целевым. Наши результаты показывают, что, несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM, причем лучшая модель достигает точности 55%. Примечательно, что мы находим, что предоставление целевого знания может лучше помочь моделям в завершении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

Гибкая методология разработки защитных механизмов для крупных языковых моделей: применение к обнаружению офф-топик запросов

Крупные языковые модели склонны к нецелевому использованию, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Текущие ограничительные механизмы, которые часто опираются на курированные примеры или специализированные классификаторы, страдают от высокого уровня ложноположительных срабатываний, ограниченной адаптации и нецелесообразности требования реальных данных, которые недоступны на стадии предварительного производства. В данной статье мы представляем гибкую методологию разработки ограничительных механизмов без использования данных, которая решает эти проблемы. Определяя проблемное пространство качественно и передавая эту информацию в языковую модель для генерации разнообразных запросов, мы создаем синтетический набор данных для тестирования и обучения ограничительных механизмов, которые превосходят эвристические подходы. Кроме того, формулируя задачу как классификацию релевантности пользовательского запроса относительно системного запроса, наши ограничительные механизмы эффективно обобщают на другие категории нецелевого использования, включая взлом системы и вредоносные запросы. Наконец, мы вносим вклад в эту область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничительных механизмов, предоставляя ценные ресурсы для разработки ограничительных механизмов в предварительно-производственных средах и поддерживая дальнейшие исследования и разработки в области безопасности LLM.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

Проблема галлюцинаций в моделях генерации видео из текста

Последние достижения в области крупномасштабных мультимодальных моделей (LMMs) расширили их возможности до понимания видео. В частности, модели текст-в-видео (T2V) добились значительного прогресса в качестве, понимании и продолжительности, превосходно создавая видео из простых текстовых запросов. Тем не менее, они все еще часто генерируют содержание с галлюцинациями, что явно указывает на то, что видео создано ИИ. Мы представляем ViBe: крупномасштабный бенчмарк текст-в-видео для видео с галлюцинациями, созданными моделями T2V. Мы выделяем пять основных типов галлюцинаций: исчезновение субъекта, численная изменчивость, временная диспропорция, ошибка пропуска и физическая несообразность. С использованием 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных видео с галлюцинациями, включающий 3,782 видео, аннотированных людьми по этим пяти категориям. ViBe предоставляет уникальный ресурс для оценки надежности моделей T2V и служит основой для улучшения обнаружения и смягчения галлюцинаций в генерации видео. Мы установили классификацию как базовую линию и представили различные конфигурации ансамблевых классификаторов, причем комбинация TimeSFormer + CNN показала наилучшие результаты, достигнув точности 0.345 и F1-меры 0.342. Этот бенчмарк направлен на стимулирование разработки надежных моделей T2V, которые создают видео, более точно соответствующие входным запросам.

Эффективное тонкое настройка крупных языковых моделей для генерации юнит-тестов: Эмпирическое исследование

Появление крупных языковых моделей (LLMs), таких как GitHub Copilot, значительно повысило продуктивность программистов, особенно в области генерации кода. Однако эти модели часто сталкиваются с трудностями при выполнении реальных задач без дообучения. По мере того как LLM становятся больше и более производительными, дообучение для специализированных задач становится все более дорогим. Методы параметрически-эффективного дообучения (PEFT), которые дообучают только подмножество параметров модели, предлагают перспективное решение, уменьшая вычислительные затраты на настройку LLM при сохранении их производительности. Существующие исследования исследовали использование PEFT и LLM для различных задач, связанных с кодом, и обнаружили, что эффективность методов PEFT зависит от задачи. Применение методов PEFT в генерации модульных тестов остается недостаточно изученным. На данный момент передовой уровень ограничивается использованием LLM с полным дообучением для генерации модульных тестов. В данной статье исследуются как полное дообучение, так и различные методы PEFT, включая LoRA, (IA)^3 и настройку запросов, для разных архитектур и размеров моделей. Мы используем хорошо установленные эталонные наборы данных для оценки их эффективности в генерации модульных тестов. Наши результаты показывают, что методы PEFT могут обеспечивать производительность, сравнимую с полным дообучением, для генерации модульных тестов, делая специализированное дообучение более доступным и экономически выгодным. Особенно стоит отметить, что настройка запросов является наиболее эффективной в плане затрат и использования ресурсов, в то время как метод LoRA приближается к эффективности полного дообучения в нескольких случаях.

Понимаем видео последовательности с помощью Prompt-guided Pooling LLaVA

Прошедший год стал свидетелем значительного прогресса в развитии видео-ориентированных крупных языковых моделей. Однако, проблема разработки единой модели для понимания как коротких, так и длинных видео, остается нерешенной. Большинство существующих видео LLM не могут обрабатывать видео продолжительностью в несколько часов, в то время как методы, специально предназначенные для длинных видео, оказываются неэффективными для более коротких видео и изображений. В этой статье мы выявляем ключевую проблему - избыточное содержание в видео. Для решения этой проблемы мы предлагаем новую стратегию объединения, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных особенностей с учетом инструкций. Наша модель называется Prompt-guided Pooling LLaVA, или сокращенно PPLLaVA. Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, объединение с подсказками, которое сжимает визуальную последовательность до произвольных масштабов с использованием сверточного стиля объединения, и расширение контекста клипа, предназначенное для длинных подсказок, часто встречающихся в визуальных диалогах. Кроме того, наша база кода также интегрирует наиболее продвинутые методы оптимизации прямого предпочтения видео (DPO) и обучения с чередованием визуальных данных. Обширные эксперименты подтвердили производительность нашей модели. При превосходной пропускной способности и только 1024 визуальных контекстов, PPLLaVA достигает лучших результатов на эталонных изображениях как видео LLM, в то же время показывая лучшие в своем классе результаты на различных видео-эталонах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео от нескольких секунд до нескольких часов. Коды доступны по адресу https://github.com/farewellthree/PPLLaVA.

Тренировка без региональных подсказок для Diffusion Transformers

Модели диффузии продемонстрировали отличные возможности в генерации изображений из текста. Их способность к семантическому пониманию (например, следование заданным инструкциям) также значительно улучшилась благодаря крупным языковым моделям (например, T5, Llama). Однако, существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда эти запросы содержат различные объекты с множеством атрибутов и взаимосвязанными пространственными отношениями. Хотя было предложено множество методов регионального запроса для моделей на базе UNet (SD1.5, SDXL), все еще нет реализаций, основанных на новой архитектуре Diffusion Transformer (DiT), такой как SD3 и FLUX.1. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1, основанный на манипуляции вниманием, что позволяет DiT осуществлять детализированную композиционную генерацию изображений из текста без необходимости дополнительного обучения. Код доступен по адресу https://github.com/antonioo-c/Regional-Prompting-FLUX.