Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

AgentK v1.0: Автономный агент для решения задач в области науки о данных

Мы представляем Agent K v1.0, автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач в области науки о данных. Полностью автоматизированный, Agent K v1.0 управляет всем жизненным циклом данных, обучаясь на основе опыта. Он использует гибкую структурированную систему рассуждений, что позволяет ему динамически обрабатывать память в вложенной структуре, эффективно обучаясь на накопленном опыте для решения сложных задач рассуждений. Agent K v1.0 оптимизирует долгосрочную и краткосрочную память, выбирая, что хранить и извлекать, что помогает принимать решения на основе полученных наград из окружающей среды. Этот итеративный подход позволяет ему уточнять решения без необходимости дообучения или обратного распространения ошибки, достигая непрерывного улучшения через обучение на основе опыта. Мы оцениваем возможности нашего агента, используя соревнования на Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Agent K v1.0 систематически решает сложные и многомодальные задачи в области науки о данных, применяя байесовскую оптимизацию для настройки гиперпараметров и инжиниринга признаков. Наша новая оценочная система тщательно проверяет способности Agent K v1.0 к выполнению задач от начала до конца, начиная с URL-адреса соревнования на Kaggle и заканчивая отправкой решений. Результаты показывают, что Agent K v1.0 достиг успеха в 92,5% задач, охватывающих табличные данные, компьютерное зрение, обработку естественного языка и многомодальные области. При сравнении с 5856 участниками Kaggle путем расчета рейтинга Elo-MMR, Agent K v1.0 занимает место в верхних 38%, демонстрируя уровень навыков, сравнимый с пользователями экспертного уровня. Важно отметить, что его рейтинг Elo-MMR находится между первым и третьим квартилями результатов, достигнутых человеческими гроссмейстерами. Кроме того, наши результаты свидетельствуют о том, что Agent K v1.0 достиг уровня производительности, эквивалентного гроссмейстеру на Kaggle, с достижениями в виде 6 золотых, 3 серебряных и 7 бронзовых медалей, как определено системой прогресса Kaggle.

Эксперименты с Run-Time Стратегиями для Медицинских Задач и Дальше

Стратегии управления во время выполнения, такие как Medprompt, ценны для направления больших языковых моделей (LLM) к достижению наивысших результатов на сложных задачах. Medprompt демонстрирует, что общая LLM может быть настроена на достижение передовых результатов в специализированных областях, таких как медицина, с использованием запроса для вызова стратегии выполнения, включающей цепочку рассуждений и ансамблевое обучение. Модель o1-preview от OpenAI представляет собой новый подход, где модель разработана для выполнения рассуждений во время выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение o1-preview на разнообразном наборе медицинских задач и бенчмарков. Следуя исследованию Medprompt с использованием GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Отмечено, что даже без техник подсказок, o1-preview значительно превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, как это представлено в Medprompt, в новом парадигме моделей с рассуждениями. Мы обнаружили, что методы подсказок на основе нескольких примеров (few-shot prompting) снижают производительность o1, что предполагает, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей, изначально предназначенных для рассуждений. Хотя ансамблевый метод остается жизнеспособным, он требует значительных ресурсов и тщательной оптимизации соотношения стоимости и производительности. Наш анализ стоимости и точности по стратегиям выполнения выявляет границу Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов, но при более высокой стоимости. Хотя o1-preview предлагает наивысшую производительность, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет свою ценность в определенных контекстах. Кроме того, мы отмечаем, что модель o1-preview достигла почти насыщения на многих существующих медицинских бенчмарках, что подчеркивает необходимость новых, сложных бенчмарков. Мы заканчиваем размышлениями о общих направлениях для вычислений во время вывода с использованием LLM.

Систематический анализ загрязнения данных в мультимодальных моделях большого языка

Быстрое развитие мультимодальных крупных языковых моделей (MLLM) продемонстрировало превосходные результаты на различных мультимодальных тестах. Однако, проблема загрязнения данных во время обучения создает трудности в оценке и сравнении производительности. Хотя существует множество методов для обнаружения загрязнения датасетов в крупных языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и множественных фаз обучения. В этом исследовании мы представляем мультимодальную платформу для обнаружения загрязнения данных, MM-Detect, разработанную специально для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и может выявлять значительные улучшения производительности, обусловленные утечкой данных из тренировочного набора мультимодальных тестов. Кроме того, мы также исследуем возможность загрязнения, исходящего из фазы предварительного обучения LLM, используемых MLLM, и фазы тонкой настройки MLLM, предоставляя новые взгляды на этапы, на которых может происходить загрязнение.

Полиномиальные составные активации: Развязывание динамики крупных языковых моделей

Трансформеры нашли широкое применение во многих областях благодаря своим мощным способностям к адаптации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в оригинальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для усиления нелинейности и, следовательно, увеличения представительской способности. В данной статье мы предлагаем новую категорию активационных функций на основе полиномиальных композиций (PolyCom), разработанных для оптимизации динамики трансформеров. Теоретически мы предоставляем полный математический анализ PolyCom, подчеркивая её улучшенную выразительность и эффективность по сравнению с другими активационными функциями. Особо отмечено, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на конфигурациях предварительного обучения крупных языковых моделей (LLMs), включая как плотные, так и разреженные архитектуры. Заменяя традиционные активационные функции на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, что улучшает показатели производительности в плане точности и скорости сходимости. Обширные экспериментальные результаты демонстрируют эффективность нашего метода, показывая существенные улучшения по сравнению с другими активационными функциями. Код доступен по адресу https://github.com/BryceZhuo/PolyCom.

Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

Само-согласование, при котором модели учатся улучшать себя без человеческой разметки, является быстро развивающейся областью исследований. Однако существующие методы часто не справляются с улучшением сложных задач мышления из-за трудности в присвоении правильных наград. Ортогональным подходом, который известен своей способностью улучшать точность, является само-согласованность, метод, применяемый на этапе вывода на основе многократной выборки для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию само-согласованности для помощи в обучении моделей. Мы вводим оптимизацию предпочтений само-согласованности (ScPO), которая итеративно обучает модели предпочитать согласованные ответы несогласованным на новых ненадзорных задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с традиционным обучением модели наград на задачах мышления, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинация ScPO со стандартным контролируемым обучением улучшает результаты еще больше. На ZebraLogic, ScPO дообучает Llama-3 8B, делая её превосходящей Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.