Ай Дайджест - категория sparse

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

2024-11-27transformer inference parallel

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

2024-11-26flops implementation language

Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Галлюцинации в крупных языковых моделях являются распространенной проблемой, однако механизмы, лежащие в основе того, будут ли модели галлюцинировать, плохо поняты, что ограничивает нашу способность решать эту проблему. Используя разреженные автокодировщики как инструмент интерпретации, мы обнаруживаем, что ключевой частью этих механизмов является распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, узнает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это предполагает, что модели могут обладать самоосведомленностью: внутренними представлениями о собственных возможностях. Эти направления имеют причинно-следственное значение: они способны направлять модель на отказ отвечать на вопросы о известных сущностях или на галлюцинирование атрибутов неизвестных сущностей, когда она в противном случае отказалась бы. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинно-следственное влияние на поведение модели чата, отказываясь отвечать, что предполагает, что дообучение чата переиспользовало этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание последующих голов, которые обычно перемещают атрибуты сущностей к последнему токену.

2024-11-22hallucination entity causal

Архитектура Mixture-of-Transformers (MoT) для мультимодальных фундаментальных моделей

Разработка крупных языковых моделей (LLMs) расширилась до многомодальных систем, способных обрабатывать текст, изображения и речь в рамках единой структуры. Обучение этих моделей требует значительно больших наборов данных и вычислительных ресурсов по сравнению с текстовыми LLMs. Для решения проблем масштабирования мы представляем Смесь трансформеров (MoT), разреженную многомодальную архитектуру трансформеров, которая значительно снижает вычислительные затраты на предобучение. MoT разделяет параметры модели, не связанные с встраиванием, по модальностям — включая полносвязные сети, матрицы внимания и нормализацию слоев — что позволяет осуществлять обработку, специфичную для модальности, с глобальным самовниманием по всей входной последовательности. Мы оцениваем MoT в различных условиях и масштабах моделей. В настройке Chameleon 7B (авторегрессивная генерация текста и изображений) MoT достигает производительности плотной базовой модели, используя только 55,8% FLOPS. При расширении на включение речи MoT достигает производительности речи, сравнимой с плотной базовой моделью, с использованием только 37,2% FLOPS. В настройке Transfusion, где текст и изображение обучаются с разными целями, модель MoT размером 7B соответствует производительности модальности изображения плотной базовой модели с одной трети FLOPS, а модель MoT размером 760M превосходит плотную базовую модель размером 1,4B по ключевым метрикам генерации изображений. Профилирование системы также подчеркивает практические преимущества MoT, достигая качества изображения плотной базовой модели за 47,2% от времени работы и качества текста за 75,6% от времени работы (измерено на экземплярах AWS p4de.24xlarge с GPU NVIDIA A100).

2024-11-08flops attention transformer

Раскрытие SDXL Turbo: Интерпретация текст-на-изображение моделей с помощью разреженных автокодировщиков

Редкие автоэнкодеры (SAEs) стали ключевым компонентом в обратной инженерии крупных языковых моделей (LLMs). Для LLM было показано, что они разлагают промежуточные представления, которые часто не являются напрямую интерпретируемыми, на разреженные суммы интерпретируемых признаков, что способствует лучшему контролю и последующему анализу. Однако подобные анализы и подходы отсутствовали для моделей преобразования текста в изображение. Мы исследовали возможность использования SAEs для изучения интерпретируемых признаков для моделей диффузии текста в изображение за несколько шагов, таких как SDXL Turbo. С этой целью мы обучили SAEs на обновлениях, выполняемых блоками трансформеров внутри SDXL Turbo's denoising U-net. Мы обнаружили, что их изученные признаки интерпретируемы, оказывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы нашли один блок, который в основном занимается композицией изображения, другой, который в основном отвечает за добавление локальных деталей, и третий - за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом на пути к лучшему пониманию внутренностей генеративных моделей преобразования текста в изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изучаемых SAEs, для визуальной области. Код доступен по адресу https://github.com/surkovv/sdxl-unbox.

2024-11-01feature transformer generative