Ай Дайджест - категория algorithms

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

2024-12-17transformation model accuracy

M AX I NFO RL: Усовершенствование Исследования в Обучении с Подкреплением через Максимизацию Информационного Прибыли

Алгоритмы обучения с подкреплением (RL) стремятся сбалансировать использование текущей наилучшей стратегии с изучением новых вариантов, которые могут привести к более высоким вознаграждениям. Наиболее распространенные алгоритмы RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективно сбалансировать задачи и внутренние вознаграждения сложно и часто зависит от конкретной задачи. В этой работе мы представляем рамки MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL нацеливает исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как информационный прирост о базовой задаче. В сочетании с исследованием Больцмана этот подход естественным образом уравновешивает максимизацию функции ценности с максимизацией энтропии по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает подпорогового сожаления в упрощенной обстановке многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без политики для непрерывных пространств состояния-действия, что приводит к новым алгоритмам, которые достигают превосходной производительности в сложных задачах исследования и сложных сценариях, таких как задачи визуального управления.

2024-12-17algorithms rewards regret

ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.

2024-12-13evaluation capabilities algorithms

GatedDeltaNet: Новая архитектура для улучшения моделей LLM

Линейные трансформеры привлекли внимание как эффективные альтернативы стандартным трансформерам, но их производительность в задачах поиска и длинного контекста была ограниченной. Чтобы преодолеть эти ограничения, недавние исследования исследовали два различных механизма: управление адаптивной памятью с помощью гейтов и правило обновления дельты для точных модификаций памяти. Мы наблюдаем, что эти механизмы являются взаимодополняющими: гейты обеспечивают быструю стерилизацию памяти, в то время как правило дельты облегчает целенаправленные обновления. Основываясь на этом понимании, мы вводим правило гейта дельты и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, по нескольким бенчмаркам, включая языковое моделирование, рассуждения на основе общего смысла, поиск в контексте, экстраполяцию длины и понимание длинного контекста. Мы также повышаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием в скользящем окне или слоями Mamba2, достигая как повышенной эффективности обучения, так и превосходных результатов по задачам.

2024-12-10gating architecture transformers

LIBMoE: A Comprehensive Library for Benchmarking Mixture of Experts in Large Language Models

Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и результативных крупных языковых моделей (LLMs). Из-за огромных требований к ресурсам, изучение алгоритмов MoE в большом масштабе остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE - всеобъемлющий и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Построенный на трех ключевых принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) комплексная оценка, LibMoE делает MoE в LLM более доступными для широкого круга исследователей, стандартизируя процессы обучения и оценки. С помощью LibMoE мы провели обширное тестирование пяти передовых алгоритмов MoE на трех различных LLM и 11 наборах данных в условиях нулевого примера. Результаты показывают, что, несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно схожие результаты при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет неоценимым инструментом для исследователей в достижении значимого прогресса в разработке следующего поколения MoE и LLM. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

2024-11-05moe modular evaluation