Ай Дайджест - категория benchmarking

ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.

2024-12-13heterogeneity algorithms capabilities

Экосистема BrowserGym для исследований веб-агентов

Экосистема BrowserGym отвечает на растущую необходимость в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, кто использует автоматизацию и большие языковые модели (LLM) для задач веб-взаимодействия. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя единое, подобное спортзалу окружение с четко определенными пространствами наблюдения и действия, облегчая стандартизированную оценку среди различных бенчмарков. В сочетании с AgentLab, дополнительной структурой, которая помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, одновременно обеспечивая последовательную оценку и всестороннее управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения мы проводим первый крупномасштабный эксперимент с веб-агентами, основанный на нескольких бенчмарках, и сравниваем производительность 6 современных LLM по всем бенчмаркам, в настоящее время доступным в BrowserGym. Среди прочих выводов, наши результаты подчеркивают большое несоответствие между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet занимает лидирующие позиции почти во всех бенчмарках, кроме задач, связанных с визуализацией, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что построение надежных и эффективных веб-агентов остается значительной проблемой из-за присущей сложности реальных веб-сред и ограничений текущих моделей.

2024-12-12analysis agents benchmarking

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

2024-12-04translation factuality benchmarking

VLsI: Вербализация слоев для взаимодействия в больших языковых моделях

Недавний всплеск высококачественных образцов визуальной настройки инструкций от закрытых моделей изображения-языка (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей приносит значительные вычислительные проблемы, особенно для развертывания на устройствах с ограниченными ресурсами, таких как мобильные платформы и роботы. Чтобы решить эту проблему, мы предлагаем VLsI: Вербализированные Слои-в-Взаимодействия, новую семью VLM размером 2B и 7B, которая приоритизирует эффективность без ущерба для точности. VLsI использует уникальный процесс дистилляции по слоям, вводя промежуточные "вербализаторы", которые сопоставляют особенности каждого слоя с пространством естественного языка, позволяя меньшим VLM гибко соответствовать процессам вывода больших VLM. Этот подход смягчает нестабильность обучения, часто возникающую при имитации вывода, и выходит за рамки обычной настройки последнего слоя, выравнивая прогрессию по слоям меньших VLM с прогрессией больших. Мы валидируем VLsI на десяти сложных эталонах визуального языка, достигая заметных приростов производительности (11.0% для 2B и 17.4% для 7B) по сравнению с GPT-4V без необходимости масштабирования модели, слияния или архитектурных изменений.

2024-12-03efficiency tuning accuracy

AgentK v1.0: Автономный агент для решения задач в области науки о данных

Мы представляем Agent K v1.0, автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач в области науки о данных. Полностью автоматизированный, Agent K v1.0 управляет всем жизненным циклом данных, обучаясь на основе опыта. Он использует гибкую структурированную систему рассуждений, что позволяет ему динамически обрабатывать память в вложенной структуре, эффективно обучаясь на накопленном опыте для решения сложных задач рассуждений. Agent K v1.0 оптимизирует долгосрочную и краткосрочную память, выбирая, что хранить и извлекать, что помогает принимать решения на основе полученных наград из окружающей среды. Этот итеративный подход позволяет ему уточнять решения без необходимости дообучения или обратного распространения ошибки, достигая непрерывного улучшения через обучение на основе опыта. Мы оцениваем возможности нашего агента, используя соревнования на Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Agent K v1.0 систематически решает сложные и многомодальные задачи в области науки о данных, применяя байесовскую оптимизацию для настройки гиперпараметров и инжиниринга признаков. Наша новая оценочная система тщательно проверяет способности Agent K v1.0 к выполнению задач от начала до конца, начиная с URL-адреса соревнования на Kaggle и заканчивая отправкой решений. Результаты показывают, что Agent K v1.0 достиг успеха в 92,5% задач, охватывающих табличные данные, компьютерное зрение, обработку естественного языка и многомодальные области. При сравнении с 5856 участниками Kaggle путем расчета рейтинга Elo-MMR, Agent K v1.0 занимает место в верхних 38%, демонстрируя уровень навыков, сравнимый с пользователями экспертного уровня. Важно отметить, что его рейтинг Elo-MMR находится между первым и третьим квартилями результатов, достигнутых человеческими гроссмейстерами. Кроме того, наши результаты свидетельствуют о том, что Agent K v1.0 достиг уровня производительности, эквивалентного гроссмейстеру на Kaggle, с достижениями в виде 6 золотых, 3 серебряных и 7 бронзовых медалей, как определено системой прогресса Kaggle.

2024-11-07optimisation automation evaluation