Ай Дайджест - категория scale

Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.

2024-11-14structure generation performance

Авторегрессивные модели в компьютерном зрении: обзор

Авторегрессионное моделирование стало огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значимой областью внимания в компьютерном зрении, где они превосходно справляются с созданием высококачественного визуального контента. В NLP авторегрессионные модели обычно работают с субсловными токенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, например, уровень пикселей, уровень токенов или уровень масштаба, что отражает разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В этом обзоре мы всесторонне рассматриваем литературу по авторегрессионным моделям, применяемым в области зрения. Для улучшения читаемости для исследователей с разным научным багажом, мы начинаем с предварительного представления и моделирования последовательностей в зрении. Далее мы делим основные фреймворки визуальных авторегрессионных моделей на три общие подкатегории: модели на основе пикселей, токенов и масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, видео, 3D-объектов и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и 3D медицинский ИИ, с примерно 250 связанными ссылками. В заключение, мы подчеркиваем текущие вызовы для авторегрессионных моделей в зрении и предлагаем потенциальные направления для исследований. Мы также создали репозиторий на Github для организации бумаг, включенных в этот обзор, по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

2024-11-12scale modeling pixel