Ай Дайджест - категория safety

VLSBench: Понимание визуальных утечек в многомодальной безопасности

Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench

2024-12-03safety multimodal alignment

Yi-Lightning: Новый Флагманский Модель Языка

Этот технический отчет представляет Yi-Lightning, нашу последнюю флагманскую модель большого языка (LLM). Она демонстрирует исключительную производительность, занимая 6-е место в общем зачете на Chatbot Arena, с особенно сильными результатами (2-е по 4-е места) в специализированных категориях, включая китайский, математику, программирование и сложные подсказки. Yi-Lightning использует улучшенную архитектуру Mixture-of-Experts (MoE), которая включает в себя передовую сегментацию экспертов и механизмы маршрутизации в сочетании с оптимизированными методами кэширования KV. Наш процесс разработки охватывает комплексное предварительное обучение, контрольное дообучение (SFT) и обучение с подкреплением на основе обратной связи от людей (RLHF), где мы разрабатываем целенаправленные стратегии для многоэтапного обучения, синтетического создания данных и моделирования наград. Более того, мы реализуем RAISE (Responsible AI Safety Engine), четырехкомпонентную структуру для решения проблем безопасности на этапах предварительного обучения, после обучения и обслуживания. Обладая нашей масштабируемой суперкомпьютерной инфраструктурой, все эти инновации существенно снижают затраты на обучение, развертывание и вывод результатов, при этом поддерживая высокие стандарты производительности. С дальнейшими оценками на общедоступных академических критериях, Yi-Lightning демонстрирует конкурентоспособные результаты по сравнению с топовыми LLM, в то время как мы наблюдаем значительное несоответствие между традиционными, статическими результатами бенчмарков и динамичными человеческими предпочтениями в реальном мире. Это наблюдение побуждает к критической переоценке полезности традиционных бенчмарков в руководстве по разработке более умных и мощных AI-систем для практических приложений. Yi-Lightning теперь доступен через нашу платформу разработчика на https://platform.lingyiwanwu.com.

2024-12-02safety architecture model

Построение доверия: основы безопасности, безопасности и прозрачности в ИИ

В данной статье рассматривается быстро развивающаяся экосистема публично доступных моделей искусственного интеллекта и их потенциальное влияние на ландшафт безопасности и безопасности. По мере того как модели ИИ становятся всё более распространёнными, понимание их потенциальных рисков и уязвимостей становится критически важным. Мы анализируем текущие сценарии безопасности и безопасности, выделяя такие проблемы, как отслеживание проблем, исправление, и очевидное отсутствие процессов жизненного цикла и владения моделями ИИ. Предлагаются комплексные стратегии для повышения безопасности и безопасности как для разработчиков моделей, так и для конечных пользователей. Цель этой статьи - предоставить некоторые основополагающие элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей ИИ, а также в формировании более широких открытых экосистем и сообществ вокруг них.

2024-11-20ai security safety

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.

2024-11-08research models performance