Ай Дайджест - категория subdomain

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

2024-11-05minimization sparsity subdomain