Автоматическая генерация изображений из текста: ChatGen
Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.