Свежая выжимка ml и AI статей - каждый день
В современной бизнес-практике всё чаще встречается ситуация, когда компании предпочитают покупать доступ к выводу моделей больших языковых моделей (LLM) вместо самостоятельного развертывания. Это связано с высокими изначальными затратами на аппаратную инфраструктуру и энергопотребление. Однако, при таком подходе у покупателей нет механизма для проверки подлинности предоставляемой услуги, включая используемую аппаратную платформу, например, что модель действительно работает на NVIDIA H100. Кроме того, существуют сообщения о том, что поставщики моделей могут предоставлять модели, которые незначительно отличаются от рекламируемых, часто для того, чтобы они могли работать на менее дорогом оборудовании. Таким образом, клиент платит за доступ к мощной модели на дорогом оборудовании, но в итоге получает менее производительную модель на более дешёвом оборудовании.
В этой статье мы представляем метод идентификации аппаратной и программной платформы для вывода модели (HSPI), который позволяет идентифицировать используемую архитектуру GPU и программный стек только на основе входных и выходных данных модели. Наш метод использует неявные различия в различных архитектурах GPU и компиляторах для различения типов GPU и программных стеков. Анализируя числовые паттерны в выходных данных модели, мы предлагаем классификационную систему, способную точно идентифицировать GPU, используемый для вывода модели, а также базовую программную конфигурацию.
Широкое внедрение больших языковых моделей (LLM) изменило технологический ландшафт, интегрировав машинное обучение в различные секторы. Однако развертывание этих мощных моделей часто требует значительных первоначальных инвестиций в специализированную аппаратную инфраструктуру и энергию, что заставляет многие компании выбирать сторонних поставщиков LLM. Эта практика вызывает вопросы о прозрачности и подотчетности, поскольку покупатели в настоящее время не имеют средств для проверки фактического оборудования, используемого для обслуживания моделей, которые они приобретают. Более того, появились сообщения о том, что некоторые поставщики могут развертывать модели, которые незначительно отличаются от их рекламируемых аналогов, потенциально оптимизированных для менее дорогого оборудования, чтобы снизить затраты.
Различия в аппаратном обеспечении могут не только вводить различия в производительности в плане времени выполнения и точности модели, но и указывать на другие потенциальные проблемы. Злонамеренный поставщик может использовать более слабые меры безопасности, например, запуская GPU без TEE или развертывая GPU в ограниченной географической области, отличной от согласованной. Также возможны случаи, когда злоумышленник вмешивается в процесс обслуживания, обманывая как поставщика услуг, так и клиента, используя услуги поставщика для себя и предоставляя клиенту поддельный GPU. Кроме того, злонамеренный поставщик может стремиться получить доступ к запросам или данным клиента, что вызывает опасения по поводу конфиденциальности.
Таким образом, способность идентифицировать аппаратную или программную платформу может служить полезным сигналом по ряду причин. В этой статье мы вводим понятие идентификации аппаратной и программной платформы для машинного обучения (HSPI), новую проблему формулировки для идентификации базовой архитектуры GPU и потенциально программного стека модели (черного ящика) только путем анализа её входно-выходного поведения.
HSPI работает за счет использования тонких различий в том, как различные GPU и программные среды выполняют вычисления, что приводит к уникальным тонким паттернам в выходных данных модели. Анализируя эти числовые паттерны, наша предложенная классификационная система может точно различать используемое устройство для вывода модели.
HSPI имеет значительные последствия для обеспечения прозрачности и подотчетности. Позволяя покупателям самостоятельно проверять аппаратное обеспечение, используемое их поставщиками, HSPI может помочь установить доверие и предотвратить потенциальные меры по снижению затрат, которые могут ухудшить производительность модели.
Для этой цели мы вводим два метода: HSPI с граничными входами (HSPI-BI) и HSPI с распределением логитов (HSPI-LD). Мы демонстрируем эффективность этих техник в HSPI в условиях как белого, так и черного ящика, охватывая задачи как в области зрения, так и в области языка. Наша работа демонстрирует практичность HSPI и исследует его производительность для различных моделей, работающих на разнообразных семействах устройств, показывая влияние системных оптимизаций и различий в программном и аппаратном обеспечении.
В этом разделе мы обсуждаем, почему возможно выводить аппаратную и программную конфигурацию платформы обслуживания машинного обучения только из пар вход-выход. В то время как это знакомо тем, кто занимается высокопроизводительными вычислениями, мы объясняем, как различные программные и аппаратные конфигурации могут перемещать модель в разные классы эквивалентности (EQC), и как порядок арифметических операций и оптимизации могут способствовать вычислительным расхождениям.
Классы эквивалентности: Различные аппаратные и программные конфигурации дают нам различные вычислительные результаты. Когда вычислительные результаты остаются одинаковыми и не отклоняются между настройками, мы говорим о них как о находящихся в одном классе эквивалентности (EQC). EQC используются для группировки похожих вычислительных поведений, которые дают последовательные результаты при определенных настройках, таких как уровни квантования, архитектуры GPU, версии CUDA и размеры пакетов. Например, квантование может изменить числовую точность и, таким образом, переместить модель в другой EQC, что приводит к тонким вариациям в выходных данных. Архитектура GPU и размер пакета также влияют на согласованность точности, так как разные аппаратные средства или методы параллельной обработки данных вводят незначительные отклонения в результатах.