Ай Дайджест - категория reliability

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

2024-12-18generation abstention models

Проблемы надежной человеческой оценки чат-ботов

Открытые платформы, основанные на сообществе, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей от посещающих сайт, завоевали репутацию одного из самых надежных общественно доступных эталонов для оценки производительности LLM. Хотя на данный момент это стандарт, реализация эффективных ограждений для сбора качественной аннотации от людей является сложной задачей. В этой статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут подорвать надежность открытых рейтингов. В частности, мы показываем, что только 10% аннотаций низкого качества от равнодушных (посетителей сайта, не имеющих адекватных стимулов для правильного голосования) или противников (плохих актеров, стремящихся повысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы, связанные с обеспечением качественных аннотаций людей.

2024-12-06reliability annotations mlm