Ай Дайджест - категория experts

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

2024-11-26compatibility experts flops

НЕКО: Построение пост-распознавания с использованием моделей больших языковых моделей и специалистов по задачам

Конструкция общего назначения корректора ошибок после распознавания ставит важный вопрос: как наиболее эффективно обучить модель на большом смешении наборов данных из различных областей? Ответ заключается в изучении специфических для каждого набора данных характеристик и их интеграции в единую модель. Ранние методы достигали этого, создавая отдельные модели коррекции языка, что приводило к значительному увеличению числа параметров. В данной работе мы представляем решение с использованием концепции "Смесь экспертов" (Mixture-of-Experts, MoE), подчеркивая, что MoE - это гораздо больше, чем просто инструмент для масштабирования. Мы предлагаем MoE для многозадачной коррекции, где эксперты обучаются быть "специалистами" в области распознавания речи, перевода текста и обработки визуальной информации, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на Open ASR Leaderboard показывают, что мы исследуем новый уровень производительности, достигая в среднем относительного снижения WER на 5.0% и значительных улучшений в BLEU для задач распознавания речи и перевода. При нулевом тестировании NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15.5% до 27.6% в тесте Hyporadise. NeKo показывает конкурентоспособные результаты по грамматике и коррекции после OCR в качестве модели для многих задач.

2024-11-12training features experts

Введение

Мы представляем технологию "Мульти-экспертное Стимулирование", новое улучшение метода ExpertPrompting (Xu и соавт., 2023), разработанное для улучшения генерации больших языковых моделей (LLM). В частности, она направляет LLM на выполнение входной инструкции путем имитации нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в одной цепочке рассуждений через наши семь тщательно разработанных подзадач, основанных на Методе Номинальной Группы (Ven и Delbecq, 1974), хорошо зарекомендовавшей себя структуре принятия решений. Наши оценки показывают, что Мульти-экспертное Стимулирование значительно превосходит ExpertPrompting и сопоставимые базовые модели в улучшении правдивости, фактичности, информативности и полезности ответов, одновременно снижая токсичность и обидность. Оно также достигает рекордной правдивости, превосходя лучший базовый показатель на 8.69% с использованием ChatGPT. Мульти-экспертное Стимулирование является эффективным, объяснимым и легко адаптируемым к различным сценариям, исключая необходимость ручного создания стимулов.

2024-11-05evaluation subtasks aggregation