Звёздное внимание: Эффективный вывод LLM для длинных последовательностей
Вывод (инференс) с использованием трансформеров на основе больших языковых моделей (LLMs) для длинных последовательностей является как затратным, так и медленным из-за квадратичной сложности механизма самообратной связи. Мы представляем Star Attention, двуфазное приближение с разреженной блоковой структурой, которое улучшает вычислительную эффективность за счет разделения внимания на несколько хостов, минимизируя при этом накладные расходы на коммуникацию. В первой фазе контекст обрабатывается с использованием блоково-локального внимания на нескольких хостах параллельно. Во второй фазе токены запросов и ответов взаимодействуют со всеми предыдущими закешированными токенами через глобальное внимание по всей последовательности. Star Attention интегрируется без проблем с большинством трансформеров на основе LLM, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, при этом сохраняя точность на уровне 95-100%.