Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "gating"

GatedDeltaNet: Новая архитектура для улучшения моделей LLM

Линейные трансформеры привлекли внимание как эффективные альтернативы стандартным трансформерам, но их производительность в задачах поиска и длинного контекста была ограниченной. Чтобы преодолеть эти ограничения, недавние исследования исследовали два различных механизма: управление адаптивной памятью с помощью гейтов и правило обновления дельты для точных модификаций памяти. Мы наблюдаем, что эти механизмы являются взаимодополняющими: гейты обеспечивают быструю стерилизацию памяти, в то время как правило дельты облегчает целенаправленные обновления. Основываясь на этом понимании, мы вводим правило гейта дельты и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, по нескольким бенчмаркам, включая языковое моделирование, рассуждения на основе общего смысла, поиск в контексте, экстраполяцию длины и понимание длинного контекста. Мы также повышаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием в скользящем окне или слоями Mamba2, достигая как повышенной эффективности обучения, так и превосходных результатов по задачам.