Свежая выжимка ml и AI статей - каждый день
Современные трансформеры, такие как Vision Transformers (ViT), достигли значительных успехов в задачах компьютерного зрения. Однако их высокая вычислительная сложность и потребление памяти ограничивают применение в реальных условиях, особенно на устройствах с ограниченными ресурсами. В этой статье мы обсудим новую методику, называемую Training Noise Token (TNT) Pruning, которая предлагает эффективный способ уменьшения вычислительных затрат при сохранении точности.
Обрезка токенов — это метод, направленный на снижение вычислительных затрат в трансформерах путем уменьшения длины входного последовательности токенов. Текущие методы обрезки токенов можно разделить на две категории: стохастические методы, которые удаляют токены на основе вероятностной оценки их важности, и эвристические методы, которые используют активации внимания для определения значимости токенов.
Хотя обрезка токенов позволяет значительно ускорить вычисления, она сталкивается с проблемами оптимизации из-за дискретной природы процесса. Текущие техники часто полагаются на стохастическую дискретную обрезку или эвристики, что затрудняет оптимизацию.
Метод TNT предлагает новую интерпретацию обрезки токенов как задачи оптимизации в рамках теории информационного узкого места. В этом контексте скорость обрезки токенов рассматривается как ограничение канала, а штраф за точность — как метрика искажения. Это позволяет применять идеи из литературы по сжатия данных и предоставляет гладкие условия для оптимизации.
Основная идея заключается в том, что вместо дискретного удаления токенов мы добавляем непрерывный шум к токенам во время обучения. Это позволяет сохранить вычислительные преимущества обрезки токенов при обеспечении более плавной оптимизации.
В архитектуре TNT вводится компонент, называемый "Noise Allocator", который вычисляет важность каждого токена и добавляет шум к его представлению. На этапе тестирования токены, которые имеют низкую важность, отбрасываются. Это обеспечивает гибкость в управлении количеством токенов, которые необходимо сохранить.
Теория информационного узкого места описывает, как можно оптимизировать кодирование данных, минимизируя искажения при заданной скорости передачи информации. В контексте обрезки токенов мы можем рассматривать токены как данные, которые необходимо эффективно кодировать, сохраняя при этом максимальную информацию.
При использовании TNT мы можем формулировать задачу обрезки токенов как задачу минимизации искажений при ограничении на скорость передачи информации. Это позволяет нам использовать непрерывные методы оптимизации, что делает процесс более эффективным.
Для проверки эффективности метода TNT были проведены эксперименты на наборе данных ImageNet с использованием архитектур ViT и DeiT. Результаты показали, что TNT превосходит предыдущие методы обрезки токенов, особенно в условиях низкой сохранности токенов.
В ходе экспериментов была проведена оценка производительности различных методов обрезки токенов, включая стохастическую дискретную обрезку и эвристические методы. TNT показал лучшие результаты в отношении компромисса между точностью и вычислительными затратами, особенно при высоких уровнях обрезки токенов.
В ходе экспериментов использовались различные параметры, такие как уровень шума и количество сохраняемых токенов. Оптимизация этих параметров позволила достичь значительных улучшений в производительности модели.
Метод TNT представляет собой значительный шаг вперед в области обрезки токенов для Vision Transformers. Он не только предлагает новый подход к оптимизации, основанный на теории информационного узкого места, но и демонстрирует высокую эффективность в реальных условиях. В условиях растущих требований к вычислительным ресурсам и необходимости быстрого развертывания моделей, TNT может стать важным инструментом для разработчиков и исследователей в области компьютерного зрения.