Ай Дайджест - категория responsible

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

2024-12-11safeguards risk training