Ай Дайджест - категория contamination

AntiLeak-Bench: Автоматизированная система для предотвращения загрязнения данных в оценке LLM

Загрязнение данных затрудняет справедливую оценку LLM, вводя тестовые данные в обучающие наборы более новых моделей. Существующие исследования решают эту задачу, обновляя эталоны с использованием вновь собранных данных. Однако они не гарантируют оценку без загрязнения, так как вновь собранные данные могут содержать уже существующие знания, и их обновления эталонов зависят от интенсивного человеческого труда. Чтобы решить эти проблемы, мы в этой статье предлагаем AntiLeak-Bench, автоматизированную рамочную систему для тестирования на утечку. Вместо того чтобы просто использовать вновь собранные данные, мы создаем образцы с явно новыми знаниями, отсутствующими в обучающих наборах LLM, что тем самым гарантирует строгое отсутствие загрязнения при оценке. Мы также разрабатываем полностью автоматизированный рабочий процесс для построения и обновления нашего эталона без человеческого труда. Это значительно снижает затраты на поддержание эталона, чтобы удовлетворить потребности новых LLM. В ходе обширных экспериментов мы подчеркиваем, что загрязнение данных, вероятно, существует до времени ограничения LLM, и демонстрируем, что AntiLeak-Bench эффективно преодолевает эту проблему.

2024-12-19contamination evaluation llm

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.

2024-11-07performance framework training