Свежая выжимка ml и AI статей - каждый день
Генерация визуальных нарративов из текстовых описаний, известная как визуализация историй, является быстро развивающейся областью. Среди её приложений создание манги занимает особое место из-за своей популярности и уникальных требований к нарративу. В отличие от традиционной визуализации историй, создание манги требует последовательного отображения персонажей, точного контроля компоновки для позиционирования нескольких персонажей и интеграции диалогов в визуально привлекательной форме. Несмотря на успехи в области генерации изображений из текста, существующие модели часто не обеспечивают необходимого контроля над внешним видом и взаимодействиями персонажей, особенно в сценах с несколькими персонажами.
Существующие подходы к визуализации историй в основном сосредоточены на низкоуровневых задачах, таких как преобразование изображений в манговый стиль, что не позволяет генерировать полностью кастомизированный контент манги с нуля. Главной проблемой является отсутствие эффективного управления персонажами в динамичных сценах, что и побудило нас предложить новую задачу — генерацию кастомизированной манги. Эта задача включает создание изображений манги с несколькими персонажами, каждый из которых адаптирован в соответствии с текстовыми подсказками и пользовательским вводом.
Мы представляем DiffSensei — инновационную архитектуру, предназначенную для генерации манги с динамическим контролем над несколькими персонажами. DiffSensei интегрирует диффузионную модель изображения с мультимодальной большой языковой моделью (MLLM), которая выступает в качестве текстово-совместимого адаптера идентичности. Этот подход позволяет использовать маскированное перекрестное внимание для бесшовного включения характеристик персонажей, обеспечивая точный контроль компоновки без прямой передачи пикселей.
DiffSensei состоит из нескольких ключевых компонентов:
Для поддержки задачи кастомизированной генерации манги мы собрали новый датасет под названием MangaZero. Этот датасет включает в себя 43 264 страницы манги и 427 147 аннотированных панелей, что позволяет визуализировать разнообразные взаимодействия и движения персонажей в последовательных кадрах. MangaZero стал первым крупномасштабным набором данных, специально разработанным для задачи многоперсонажной, многосостоянийной генерации манги.
Датасет был создан в три этапа:
Мы провели обширные эксперименты для оценки производительности DiffSensei по сравнению с существующими моделями. Результаты показали, что DiffSensei значительно превосходит другие модели, обеспечивая более высокое качество изображений, согласованность персонажей и контроль над компоновкой.
Для оценки качества генерации использовались различные метрики, включая:
DiffSensei продемонстрировал превосходство по всем ключевым метрикам по сравнению с моделями, такими как StoryDiffusion, AR-LDM и другими. Особенно выделяется способность DiffSensei к динамическому изменению состояния персонажей в ответ на текстовые подсказки, что ранее было проблематичным для других моделей.
DiffSensei представляет собой значительный шаг вперед в области генерации манги, интегрируя диффузионные модели и мультимодальные языковые модели для создания кастомизированного контента. Благодаря инновационным подходам к управлению компоновкой и адаптации характеристик персонажей, DiffSensei способен генерировать выразительные и последовательные панели манги, что открывает новые горизонты в визуализации историй.
В будущем мы планируем продолжить работу над улучшением качества генерации и расширением функциональности модели, а также открытым доступом к коду и датасету для сообщества.