Ай Дайджест - категория pruning

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

2024-12-18sampling acceleration tokens

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

2024-12-11diffusion adversarial pruning

Адаптивный Инференс Мульти-Модальных LLM через Слияние и Обрезку Токенов

Большие языковые модели (LLM) позволили создать мультимодальные LLM, которые демонстрируют высокое понимание визуальных данных, таких как изображения и видео. Однако эти модели обычно полагаются на обширные визуальные токены от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в условиях ограниченных ресурсов и для задач с длинным контекстом. В этой работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкому диапазону требований по эффективности с минимальным падением производительности. Наш метод состоит из a) итеративного объединения токенов на основе сходства встраиваний перед LLM и b) прогрессивного отсечения токенов внутри слоев LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных бенчмарках видео и изображений показывают, что наш метод значительно снижает вычислительную нагрузку (например, 7-кратное снижение FLOPs), сохраняя производительность видео и изображений LLM. Кроме того, при аналогичных вычислительных затратах наш метод превосходит современные методы в понимании длинного видео (например, +4,6 на MLVU). Кроме того, наш углубленный анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая руководство для будущих исследований в проектировании эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.

2024-12-04llms efficiency inference

TinyFusion: Ускорение диффузионных трансформеров с помощью обрезки слоев

Диффузионные трансформаторы продемонстрировали выдающиеся способности в генерации изображений, но часто имеют чрезмерную параметризацию, что приводит к значительным накладным расходам на вывод в реальных приложениях. В этой работе мы представляем TinyFusion — метод обрезки глубины, предназначенный для удаления избыточных слоев из диффузионных трансформаторов с помощью обучения от начала до конца. Основной принцип нашего подхода заключается в создании обрезанной модели с высокой восстановимостью, что позволяет ей восстанавливать высокую производительность после дообучения. Для этого мы представляем дифференцируемую технику выборки, чтобы сделать обрезку обучаемой, в паре с совместно оптимизируемым параметром для имитации будущего дообучения. В то время как предыдущие работы сосредотачиваются на минимизации потерь или ошибок после обрезки, наш метод явно моделирует и оптимизирует производительность обрезанных моделей после дообучения. Экспериментальные результаты показывают, что эта обучаемая парадигма предлагает значительные преимущества для обрезки слоев диффузионных трансформаторов, превосходя существующие методы, основанные на важности и ошибках. Кроме того, TinyFusion демонстрирует сильную генерализацию на различных архитектурах, таких как DiT, MAR и SiT. Эксперименты с DiT-XL показывают, что TinyFusion может создать неглубокий диффузионный трансформатор с затратами менее 7% от стоимости предварительного обучения, достигая ускорения в 2 раза с индексом FID 2,86, превосходя конкурентов с сопоставимой эффективностью. Код доступен по адресу https://github.com/VainF/TinyFusion.

2024-12-03learning generalization efficiency

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

2024-12-02training pruning optimization

HtmlRAG: HTML лучше простого текста для моделирования извлеченных знаний в RAG-системах

Генерация с усилением извлечения (RAG) показала улучшение в способностях к знаниям и снижение проблемы галлюцинаций у моделей языкового уровня (LLMs). Интернет является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, использовали поисковые системы Интернета в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-источники этих результатов, а затем извлекают из них простые тексты. Простые текстовые документы или фрагменты подаются в LLM для усиления генерации. Однако, в процессе такого текстового RAG теряется много структурной и семантической информации, присущей HTML, такой как заголовки и структуры таблиц. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо простого текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше моделирует знания во внешних документах, и большинство LLM обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительный контент, такой как теги, JavaScript и CSS-спецификации, которые добавляют лишние токены ввода и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы уменьшить объем HTML, минимизируя при этом потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе дерева блоков, который удаляет бесполезные HTML-блоки и сохраняет только релевантную часть HTML. Эксперименты на шести наборах данных для вопросов и ответов подтверждают превосходство использования HTML в системах RAG.

2024-11-06generation rag pruning