Ай Дайджест - категория parallel

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

2024-12-06decoding framework prediction

Динамический параллельный метод для оптимизации производительности на гибридных ЦП

Концепция AIPC набирает популярность, и все больше гибридных ЦПУ будут запускать модели ИИ на клиентских устройствах. Однако текущая структура вывода ИИ игнорирует несбалансированные аппаратные возможности гибридных ЦПУ, что приводит к низкой производительности вывода. Чтобы решить эту проблему, мы представили динамический параллельный метод для гибридных ЦПУ, который значительно увеличивает производительность вывода LLM, сбалансировав нагрузку для каждого ядра гибридного ЦПУ перед началом параллельной работы. Этот метод позволил Neural Speed достичь более 90% (в среднем) пропускной способности памяти на двух гибридных ЦПУ Intel.

2024-12-04performance aipc neuralspeed

Звёздное внимание: Эффективный вывод LLM для длинных последовательностей

Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.

2024-11-27efficiency inference parallel