Ай Дайджест - категория interpretability

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

2024-12-11representation multi-token decoding

Интерпретация больших мультимодальных моделей: Разбор и управление внутренними представлениями

Недавние достижения в области крупных мультимодальных моделей (LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Возникает вопрос, как мы, как люди, можем понять их внутренние нейронные представления. В данной статье делается первый шаг к ответу на этот вопрос путем представления универсальной структуры для идентификации и интерпретации семантики внутри LMMs. В частности: 1) Сначала мы применяем разреженный автоэнкодер (SAE) для разделения представлений на понятные человеку характеристики. 2) Затем мы представляем автоматическую систему интерпретации для понимания открытых семантических характеристик, изученных SAE самими LMMs. Мы используем эту систему для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти характеристики могут эффективно направлять поведение модели. Наши результаты способствуют более глубокому пониманию того, почему LMMs превосходят в выполнении определенных задач, включая тесты на эмоциональный интеллект, и освещают природу их ошибок, а также потенциальные стратегии их исправления. Эти открытия предоставляют новые взгляды на внутренние механизмы LMMs и предполагают параллели с когнитивными процессами человеческого мозга.

2024-11-25behavior analysis multimodal

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

2024-11-05sparsity interpretability bias