Ай Дайджест - категория perplexity

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

2024-12-17generative prediction tokens

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

2024-11-08entropy hierarchical alignment