Свежая выжимка ml и AI статей - каждый день
Современные модели диффузии, способные генерировать изображения на основе текстовых описаний (T2I), достигли значительных успехов в создании контента. Однако многие из них сталкиваются с проблемами больших размеров моделей, медленной работы и низкого качества генерации на мобильных устройствах. В данной статье рассматривается SnapGen — новая модель T2I, которая решает эти проблемы, предлагая компактные и быстрые архитектуры, способные генерировать изображения высокого разрешения на мобильных платформах.
Большинство моделей T2I, таких как SDXL и другие, имеют миллиарды параметров, что делает их неэффективными для использования на мобильных устройствах. Они также требуют значительных вычислительных ресурсов, что приводит к высоким затратам на облачные вычисления и проблемам с безопасностью данных. Кроме того, многие из этих моделей не могут генерировать изображения с высоким разрешением, что ограничивает их применение в реальных сценариях.
SnapGen был разработан с целью преодоления этих ограничений. Основные задачи включают:
SnapGen использует модифицированную архитектуру UNet, которая была оптимизирована для снижения вычислительных затрат. Основные изменения включают:
SnapGen использует несколько инновационных методов обучения:
SnapGen продемонстрировал впечатляющие результаты на различных бенчмарках. Например, на ImageNet-1K модель с 372 миллионами параметров достигла FID 2.06 для генерации изображений размером 256x256 пикселей. Это сопоставимо с результатами более крупных моделей, но с гораздо меньшими затратами на ресурсы.
SnapGen позволяет генерировать изображения на основе текстовых подсказок, таких как:
Генерируемые изображения обладают высоким качеством и детализацией, что делает SnapGen конкурентоспособным на рынке T2I.
SnapGen представляет собой значительный шаг вперед в области текст-в-изображение генерации, предлагая эффективные архитектуры и методы обучения, которые позволяют генерировать высококачественные изображения на мобильных устройствах. Эта модель не только решает проблемы, связанные с большими размерами и медленной работой существующих моделей, но и открывает новые возможности для мобильного использования технологий генерации изображений.