Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "capabilities"

Возможности LLM в стабильном рассуждении: анализ G-Pass@k и LiveMathBench

Быстрый прогресс больших языковых моделей (LLM) продемонстрировал заметные достижения в сложных задачах рассуждения. Однако существует значительное несоответствие между эталонными показателями и реальными приложениями. Мы определяем этот разрыв как в первую очередь происходящий от текущих протоколов и метрик оценки, которые неадекватно отражают весь спектр возможностей LLM, особенно в сложных задачах рассуждения, где как точность, так и последовательность имеют решающее значение. Эта работа делает два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая предоставляет непрерывную оценку производительности модели по нескольким попыткам выборки, количественно оценивая как потенциал максимальной производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамическую эталонную базу, состоящую из сложных, современных математических задач, разработанных с целью минимизировать риски утечек данных во время оценки. Через обширные эксперименты с использованием G-Pass@k на современных LLM с LiveMathBench мы предоставляем всесторонние впечатления как о их максимальных возможностях, так и о операционной последовательности. Наши результаты показывают значительные возможности для улучшения «реалистичных» способностей рассуждения LLM, подчеркивая необходимость более надежных методов оценки. Эталон и детализированные результаты доступны по адресу: https://github.com/open-compass/GPassK.

ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.

EXAONE 3.5: Новые горизонты для больших языковых моделей

Этот технический отчет представляет модели языков EXAONE 3.5, настроенные на выполнение инструкций, разработанные и выпущенные исследовательской командой LG AI. Модели языка EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися способностями: 1) исключительные возможности следования инструкциям в реальных сценариях, достигающие наивысших баллов по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигающее лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с современными открытыми моделями аналогичного размера по девяти общим бенчмаркам. Модели языка EXAONE 3.5 открыты для всех в исследовательских целях и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальной контактной точкой LG AI Research: [email protected].

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.