Обучение с шумом и обрезка токенов в Vision Transformers

Современные трансформеры, такие как Vision Transformers (ViT), достигли значительных успехов в задачах компьютерного зрения. Однако их высокая вычислительная сложность и потребление памяти ограничивают применение в реальных условиях, особенно на устройствах с ограниченными ресурсами. В этой статье мы обсудим новую методику, называемую Training Noise Token (TNT) Pruning, которая предлагает эффективный способ уменьшения вычислительных затрат при сохранении точности.

Проблема обрезки токенов

Обрезка токенов — это метод, направленный на снижение вычислительных затрат в трансформерах путем уменьшения длины входного последовательности токенов. Текущие методы обрезки токенов можно разделить на две категории: стохастические методы, которые удаляют токены на основе вероятностной оценки их важности, и эвристические методы, которые используют активации внимания для определения значимости токенов.

Хотя обрезка токенов позволяет значительно ускорить вычисления, она сталкивается с проблемами оптимизации из-за дискретной природы процесса. Текущие техники часто полагаются на стохастическую дискретную обрезку или эвристики, что затрудняет оптимизацию.

Подход TNT

Метод TNT предлагает новую интерпретацию обрезки токенов как задачи оптимизации в рамках теории информационного узкого места. В этом контексте скорость обрезки токенов рассматривается как ограничение канала, а штраф за точность — как метрика искажения. Это позволяет применять идеи из литературы по сжатия данных и предоставляет гладкие условия для оптимизации.

Основная идея заключается в том, что вместо дискретного удаления токенов мы добавляем непрерывный шум к токенам во время обучения. Это позволяет сохранить вычислительные преимущества обрезки токенов при обеспечении более плавной оптимизации.

Архитектура TNT

В архитектуре TNT вводится компонент, называемый "Noise Allocator", который вычисляет важность каждого токена и добавляет шум к его представлению. На этапе тестирования токены, которые имеют низкую важность, отбрасываются. Это обеспечивает гибкость в управлении количеством токенов, которые необходимо сохранить.

Связь с теорией информационного узкого места

Теория информационного узкого места описывает, как можно оптимизировать кодирование данных, минимизируя искажения при заданной скорости передачи информации. В контексте обрезки токенов мы можем рассматривать токены как данные, которые необходимо эффективно кодировать, сохраняя при этом максимальную информацию.

При использовании TNT мы можем формулировать задачу обрезки токенов как задачу минимизации искажений при ограничении на скорость передачи информации. Это позволяет нам использовать непрерывные методы оптимизации, что делает процесс более эффективным.

Эмпирические результаты

Для проверки эффективности метода TNT были проведены эксперименты на наборе данных ImageNet с использованием архитектур ViT и DeiT. Результаты показали, что TNT превосходит предыдущие методы обрезки токенов, особенно в условиях низкой сохранности токенов.

Оценка производительности

В ходе экспериментов была проведена оценка производительности различных методов обрезки токенов, включая стохастическую дискретную обрезку и эвристические методы. TNT показал лучшие результаты в отношении компромисса между точностью и вычислительными затратами, особенно при высоких уровнях обрезки токенов.

Параметры и настройки

В ходе экспериментов использовались различные параметры, такие как уровень шума и количество сохраняемых токенов. Оптимизация этих параметров позволила достичь значительных улучшений в производительности модели.

Заключение

Метод TNT представляет собой значительный шаг вперед в области обрезки токенов для Vision Transformers. Он не только предлагает новый подход к оптимизации, основанный на теории информационного узкого места, но и демонстрирует высокую эффективность в реальных условиях. В условиях растущих требований к вычислительным ресурсам и необходимости быстрого развертывания моделей, TNT может стать важным инструментом для разработчиков и исследователей в области компьютерного зрения.

Статья на arxiv Оригинал pdf optimization transformers dataset

Ай Дайджест