Ай Дайджест - категория steering

Разложение и интерпретация векторов управления: Можно ли использовать разреженные автоэнкодеры?

Векторы управления являются перспективным методом для контроля поведения крупных языковых моделей. Однако их внутренние механизмы остаются плохо понятыми. Хотя разреженные автокодировщики (SAEs) могут предложить потенциальный способ интерпретации векторов управления, недавние исследования показывают, что векторы, реконструированные с помощью SAEs, часто лишены управляющих свойств оригинальных векторов. В данной статье исследуется, почему прямое применение SAEs к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления находятся вне распределения входных данных, для которых SAEs были разработаны, и (2) векторы управления могут иметь значимые отрицательные проекции в направлениях признаков, которые SAEs не предназначены учитывать. Эти ограничения препятствуют прямому использованию SAEs для интерпретации векторов управления.

2024-11-14interpretation decomposition projection

Эксперименты с Run-Time Стратегиями для Медицинских Задач и Дальше

Стратегии управления во время выполнения, такие как Medprompt, ценны для направления больших языковых моделей (LLM) к достижению наивысших результатов на сложных задачах. Medprompt демонстрирует, что общая LLM может быть настроена на достижение передовых результатов в специализированных областях, таких как медицина, с использованием запроса для вызова стратегии выполнения, включающей цепочку рассуждений и ансамблевое обучение. Модель o1-preview от OpenAI представляет собой новый подход, где модель разработана для выполнения рассуждений во время выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение o1-preview на разнообразном наборе медицинских задач и бенчмарков. Следуя исследованию Medprompt с использованием GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Отмечено, что даже без техник подсказок, o1-preview значительно превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, как это представлено в Medprompt, в новом парадигме моделей с рассуждениями. Мы обнаружили, что методы подсказок на основе нескольких примеров (few-shot prompting) снижают производительность o1, что предполагает, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей, изначально предназначенных для рассуждений. Хотя ансамблевый метод остается жизнеспособным, он требует значительных ресурсов и тщательной оптимизации соотношения стоимости и производительности. Наш анализ стоимости и точности по стратегиям выполнения выявляет границу Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов, но при более высокой стоимости. Хотя o1-preview предлагает наивысшую производительность, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет свою ценность в определенных контекстах. Кроме того, мы отмечаем, что модель o1-preview достигла почти насыщения на многих существующих медицинских бенчмарках, что подчеркивает необходимость новых, сложных бенчмарков. Мы заканчиваем размышлениями о общих направлениях для вычислений во время вывода с использованием LLM.

2024-11-07benchmarks optimization performance

Контроль языковых и диффузионных моделей с помощью транспортировки активаций

Увеличивающиеся возможности больших генеративных моделей и их всё более широкое внедрение вызывают опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние исследования предложили управлять генерацией моделей путем направления активаций модели, чтобы эффективно вызывать или предотвращать появление концепций или поведения в генерируемом выходе. В данной статье мы представляем Транспорт Активаций (AcT), общий фреймворк для управления активациями, руководствуясь теорией оптимального транспорта, который обобщает множество предыдущих работ по направлению активаций. AcT не зависит от модальности и обеспечивает точный контроль над поведением модели с минимальными вычислительными накладными расходами, при этом минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в больших языковых моделях (LLMs) и моделях диффузии текста в изображения (T2Is). Для LLMs мы показываем, что AcT может эффективно снижать токсичность, вызывать произвольные концепции и повышать их правдивость. В T2Is мы показываем, как AcT позволяет осуществлять точный контроль стиля и отрицание концепций.

2024-11-06control versatility toxicity