Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "autoencoder"

Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, аудио, видео). В этой работе мы предлагаем Моделирование Языка в Скрытом Пространстве (Latent Language Modeling, LatentLM), которое бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. В частности, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде скрытых векторов и вводим диффузию следующего токена для авторегрессионной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE, чтобы решить проблемы коллапса дисперсии, что имеет решающее значение для авторегрессионного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодальные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает положительных результатов по сравнению с Transfusion и векторизованными моделями в контексте увеличения токенов для обучения. В синтезе текста в речь LatentLM превосходит передовую модель VALL-E 2 по сходству с говорящим иrobustness, при этом требуя на 10 раз меньше шагов декодирования. Результаты подтверждают, что LatentLM является высокоэффективным и масштабируемым подходом для продвижения больших мультимодальных моделей.

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

MoViE: Мобильная диффузия для видеомонтажа

Недавний прогресс в редактировании видео на основе диффузии продемонстрировал выдающийся потенциал для практического применения. Тем не менее, эти методы остаются prohibitively дорогими и сложными для развертывания на мобильных устройствах. В этом исследовании мы представляем ряд оптимизаций, которые делают мобильное редактирование видео осуществимым. Основываясь на существующей модели редактирования изображений, мы сначала оптимизируем её архитектуру и внедряем легкий автоэнкодер. Затем мы расширяем дистилляцию без классификатора для нескольких модальностей, что приводит к троекратному ускорению работы на устройстве. Наконец, мы уменьшаем количество шагов выборки до одного, представив новую схему противостоящей дистилляции, которая сохраняет контролируемость процесса редактирования. В совокупности эти оптимизации позволяют редактировать видео со скоростью 12 кадров в секунду на мобильных устройствах, сохраняя при этом высокое качество. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/mobile-video-editing/.

Open-Sora Plan: Новый Подход к Генерации Видео

Мы представляем проект Open-Sora Plan, проект с открытым исходным кодом, который стремится внести большую модель генерации для создания желаемых видео в высоком разрешении длительностью основываясь на различных входных данных пользователя. Наш проект состоит из нескольких компонентов для всего процесса генерации видео, включая вариационный автокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse, а также различные контроллеры условий. Более того, разработаны множество вспомогательных стратегий для эффективного обучения и вывода, и предложен многоуровневый конвейер обработки данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш проект Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт смогут вдохновить сообщество исследователей генерации видео. Все наши коды и веса модели доступны для публики по адресу https://github.com/PKU-YuanGroup/Open-Sora-Plan.

Интерпретация больших мультимодальных моделей: Разбор и управление внутренними представлениями

Недавние достижения в области крупных мультимодальных моделей (LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Возникает вопрос, как мы, как люди, можем понять их внутренние нейронные представления. В данной статье делается первый шаг к ответу на этот вопрос путем представления универсальной структуры для идентификации и интерпретации семантики внутри LMMs. В частности: 1) Сначала мы применяем разреженный автоэнкодер (SAE) для разделения представлений на понятные человеку характеристики. 2) Затем мы представляем автоматическую систему интерпретации для понимания открытых семантических характеристик, изученных SAE самими LMMs. Мы используем эту систему для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти характеристики могут эффективно направлять поведение модели. Наши результаты способствуют более глубокому пониманию того, почему LMMs превосходят в выполнении определенных задач, включая тесты на эмоциональный интеллект, и освещают природу их ошибок, а также потенциальные стратегии их исправления. Эти открытия предоставляют новые взгляды на внутренние механизмы LMMs и предполагают параллели с когнитивными процессами человеческого мозга.

Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Галлюцинации в крупных языковых моделях являются распространенной проблемой, однако механизмы, лежащие в основе того, будут ли модели галлюцинировать, плохо поняты, что ограничивает нашу способность решать эту проблему. Используя разреженные автокодировщики как инструмент интерпретации, мы обнаруживаем, что ключевой частью этих механизмов является распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, узнает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это предполагает, что модели могут обладать самоосведомленностью: внутренними представлениями о собственных возможностях. Эти направления имеют причинно-следственное значение: они способны направлять модель на отказ отвечать на вопросы о известных сущностях или на галлюцинирование атрибутов неизвестных сущностей, когда она в противном случае отказалась бы. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинно-следственное влияние на поведение модели чата, отказываясь отвечать, что предполагает, что дообучение чата переиспользовало этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание последующих голов, которые обычно перемещают атрибуты сущностей к последнему токену.

Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Согласование больших языковых моделей (LLMs) с человеческими предпочтениями остается ключевым вызовом. Хотя посттренировочные техники, такие как Обучение с подкреплением от человеческой обратной связи (RLHF) и Оптимизация прямых предпочтений (DPO), достигли заметного успеха, они часто вводят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем Оптимизацию предпочтений на уровне признаков (FPO), новый метод, разработанный для упрощения процесса согласования при сохранении стабильности. FPO использует предобученные Разреженные Автокодировщики (SAEs) и вводит ограничения на уровне признаков, что позволяет проводить эффективное, вынужденное разрежением согласование. Наш подход отличается эффективностью за счет использования разреженных признаков, активированных в хорошо обученном разреженном автокодировщике, и качества последовательного дивергенции Кульбака-Лейблера с использованием оффлайн-референса на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения на 5.08% в проценте побед при значительно более низких вычислительных затратах по сравнению с лучшими на сегодняшний день базовыми моделями, что делает его перспективным решением для эффективного и контролируемого согласования LLM.

Расшифровка тёмной материи: Специализированные разреженные автоэнкодеры для интерпретации редких концепций в фундаментальных моделях

Понимание и смягчение потенциальных рисков, связанных с моделями фундаментального уровня (FMs), зависит от разработки эффективных методов интерпретации. Разреженные автокодировщики (SAEs) выделяются как перспективный инструмент для разделения представлений FM, однако они испытывают трудности с захватом редких, но критически важных концепций в данных. Мы представляем Специализированные разреженные автокодировщики (SSAEs), разработанные для выявления этих ускользающих темных материйных признаков путем фокусировки на конкретных поддоменах. Мы предлагаем практический рецепт для обучения SSAEs, демонстрирующий эффективность плотного извлечения для выбора данных и преимущества Наклонной эмпирической минимизации риска в качестве цели обучения для улучшения воспоминания концепций. Наше оценка SSAEs по стандартным метрикам, таким как перплексия вниз по течению и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостовых поддоменов, превосходя возможности общих SAEs. Мы демонстрируем практическую полезность SSAEs на примере исследования на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации на 12.5% в худшей группе при применении для устранения ложной гендерной информации. SSAEs предоставляют мощный новый инструмент для проникновения во внутренние механизмы работы FMs в поддоменах.

Раскрытие SDXL Turbo: Интерпретация текст-на-изображение моделей с помощью разреженных автокодировщиков

Редкие автоэнкодеры (SAEs) стали ключевым компонентом в обратной инженерии крупных языковых моделей (LLMs). Для LLM было показано, что они разлагают промежуточные представления, которые часто не являются напрямую интерпретируемыми, на разреженные суммы интерпретируемых признаков, что способствует лучшему контролю и последующему анализу. Однако подобные анализы и подходы отсутствовали для моделей преобразования текста в изображение. Мы исследовали возможность использования SAEs для изучения интерпретируемых признаков для моделей диффузии текста в изображение за несколько шагов, таких как SDXL Turbo. С этой целью мы обучили SAEs на обновлениях, выполняемых блоками трансформеров внутри SDXL Turbo's denoising U-net. Мы обнаружили, что их изученные признаки интерпретируемы, оказывают причинное влияние на процесс генерации и раскрывают специализацию среди блоков. В частности, мы нашли один блок, который в основном занимается композицией изображения, другой, который в основном отвечает за добавление локальных деталей, и третий - за цвет, освещение и стиль. Таким образом, наша работа является важным первым шагом на пути к лучшему пониманию внутренностей генеративных моделей преобразования текста в изображение, таких как SDXL Turbo, и демонстрирует потенциал признаков, изучаемых SAEs, для визуальной области. Код доступен по адресу https://github.com/surkovv/sdxl-unbox.