Ай Дайджест - категория bias

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

2024-12-17democratization transparency bias

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

2024-12-13neural parameters bias

JuStRank: Оценка LLM-судей для ранжирования систем

Учитывая быстрый прогресс генеративного ИИ, существует настоятельная необходимость систематически сравнивать и выбирать между многочисленными моделями и конфигурациями. Масштаб и универсальность таких оценок делают использование судей на основе больших языковых моделей (LLM) убедительным решением для этой задачи. Ключевым моментом в этом подходе является необходимость сначала проверить качество самого судьи LLM. Предыдущие работы сосредотачивались на оценке судей LLM на основе конкретных примеров, где судья оценивается по набору ответов или парам ответов, оставаясь при этом нейтральным к их исходным системам. Мы утверждаем, что эта обстановка упускает из виду критически важные факторы, влияющие на ранжирование на уровне системы, такие как положительная или отрицательная предвзятость судьи к определённым системам. Чтобы устранить этот пробел, мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Баллы системы генерируются путем агрегирования оценок судей по нескольким выводам системы, а качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием, основанным на мнении человека. Кроме общей оценки судьи, наш анализ предоставляет детализированную характеристику поведения судьи, включая их решительность и предвзятость.

2024-12-13assessment bias ai

Granite Guardian: Модели для безопасного использования LLM

Мы представляем модели Granite Guardian, набор средств защиты, разработанных для обеспечения обнаружения рисков для запросов и ответов, что позволяет безопасному и ответственному использованию в сочетании с любой моделью большого языка (LLM). Эти модели предлагают всестороннее покрытие по нескольким измерениям риска, включая социальные предвзятости, ненормативную лексику, насилие, сексуальный контент, неэтичное поведение, jailbreak и риски, связанные с галлюцинациями, такие как релевантность контекста, обоснованность и релевантность ответов для генерации с дополнением поиска (RAG). Обученные на уникальном наборе данных, сочетающем аннотации от людей из различных источников и синтетические данные, модели Granite Guardian охватывают риски, которые обычно игнорируются традиционными моделями обнаружения рисков, такие как jailbreak и специфические для RAG проблемы. С оценками AUC 0,871 и 0,854 для вредного контента и бенчмарков, связанных с галлюцинациями RAG соответственно, Granite Guardian является самой обобщаемой и конкурентоспособной моделью, доступной в этой области. Выпущенный как открытый код, Granite Guardian нацелен на продвижение ответственной разработки ИИ в сообществе. https://github.com/ibm-granite/granite-guardian

2024-12-11safeguards training dataset

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

2024-12-11representation bias framework

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

2024-12-02bias generalization preferences

AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов

Недавние достижения в производительности больших языковых моделей (LLM) по медицинским тестам с выбором из нескольких вариантов (MCQ) вызвали интерес со стороны поставщиков медицинских услуг и пациентов по всему миру. Особенно в странах с низкими и средними доходами (LMIC), испытывающих острый дефицит врачей и нехватку специалистов, LLM предлагают потенциально масштабируемый способ улучшения доступа к медицинским услугам и снижения затрат. Однако их эффективность в Глобальном Юге, особенно на африканском континенте, еще предстоит установить. В этой работе мы представляем AfriMed-QA, первую крупномасштабную панаравиканскую английскую базу данных вопросов и ответов (QA) в области медицины, состоящую из 15 000 вопросов (открытых и закрытых), собранных из более чем 60 медицинских школ в 16 странах, охватывающих 32 медицинские специальности. Мы дополнительно оцениваем 30 LLM по нескольким критериям, включая правильность и демографическую предвзятость. Наши результаты показывают значительное различие в производительности между специальностями и регионами; производительность MCQ явно отстает от USMLE (MedQA). Мы обнаруживаем, что биомедицинские LLM уступают общим моделям, а меньшие модели LLM, ориентированные на крайние устройства, с трудом достигают проходного балла. Интересно, что человеческие оценки показывают устойчивое предпочтение потребителей к ответам и объяснениям LLM по сравнению с ответами клиницистов.

2024-11-29qa bias mcq

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

2024-11-05interpretability retrieval minimization