Ай Дайджест - категория compatibility

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

2024-11-26experts compatibility implementation

GitChameleon: Разоблачение возможностей генерации версионного кода LLM

Быстрое развитие библиотек программного обеспечения представляет собой значительный вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки для автодополнения кода часто упускают из виду этот динамический аспект, а те, которые его учитывают, опираются на статические задачи предсказания кода без оценки на основе выполнения, предоставляя ограниченный взгляд на практическую применимость модели. Чтобы заполнить этот пробел, мы представляем **GitChameleon**, новый, вручную отобранный набор данных, состоящий из 116 задач автодополнения кода на Python, каждая из которых обусловлена конкретными версиями библиотек и сопровождается исполняемыми юнит-тестами. **GitChameleon** предназначен для тщательной оценки способности современных больших языковых моделей (LLM) генерировать код, специфичный для версии, который не только синтаксически правильный, но и функционально точен при выполнении. Наши комплексные оценки показывают, что передовые LLM сталкиваются с трудностями в решении этой задачи; например, GPT-4o достигает pass@10 всего 39.9% (43.7%, когда предоставляется обратная связь об ошибках), что подчеркивает сложность проблемы и ограничения текущих моделей. Предоставляя бенчмарк на основе выполнения, который подчеркивает динамическую природу библиотек кода, **GitChameleon** служит важным инструментом для продвижения разработки более адаптируемых и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, обусловленной версиями, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.

2024-11-12benchmark evaluation execution

HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

Мы предлагаем эффективный метод внедрения адаптеров в базовые модели преобразования текста в изображение, который позволяет выполнять сложные задачи на последующих этапах, сохраняя при этом способность базовой модели к обобщению. Основная идея данного метода заключается в оптимизации механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемов и показал значительные результаты. Мы надеемся, что эта работа может дать представление о задачах, выполняемых после обучения, для крупных моделей преобразования текста в изображение. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он представляет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем соответствующий код (https://songkey.github.io/hellomeme).

2024-11-04performance adapters attention

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.

2024-11-04benchmark generation permutation