Интерливинг текстов и изображений: Новая эра генеративного ИИ

С развитием многомодальных языковых моделей (MLLM) и диффузионных моделей наблюдается рост интереса к системам, способным одновременно генерировать текст и изображения. В данной статье мы рассмотрим концепции, представленные в недавней работе, посвященной интерливингу текстов и изображений, а также новым методам оценки таких систем.

Современные пользователи требуют от систем генерации контента, чтобы они могли создавать не только текстовые ответы, но и визуальные элементы одновременно. Например, когда пользователь задает вопрос "Как приготовить жареный рис с яйцом?", ответ в виде списка шагов может быть недостаточным. Более предпочтительным было бы интерливинг текстовых инструкций с соответствующими изображениями, что создает более интерактивный и понятный контент, подобно кулинарным книгам.

Однако, создание интерливинг контента представляет собой сложную задачу. Необходимо обеспечить согласованность между текстом и изображениями, а также между самими изображениями. Для решения этих проблем была предложена новая структура оценки, называемая ISG (Interleaved Scene Graph).

Структура ISG

ISG использует граф сцены как основную семантическую модель для представления взаимосвязей между текстовыми и визуальными блоками. Каждый блок может быть определен как непрерывная последовательность текстовых или визуальных токенов. Эта структура позволяет проводить оценку на четырех уровнях:

Голистическая оценка: Оценивает всю сгенерированную реакцию в целом.
Структурная оценка: Оценивает взаимосвязь между блоками.
Блоковая оценка: Оценивает точность внутри каждого блока.
Изображенческая оценка: Оценивает содержание изображений.

Каждый уровень имеет свои вопросы и ответы, что позволяет проводить детальную и интерпретируемую оценку.

Бенчмарк ISG-BENCH

Вместе с ISG был представлен бенчмарк ISG-BENCH, содержащий 1150 образцов по 8 категориям и 21 подкатегории. Этот набор данных включает сложные зависимости между языком и изображениями, а также "золотые" ответы для эффективной оценки моделей на задачах, связанных с визуализацией.

Особенности бенчмарка

ISG-BENCH акцентирует внимание на задачах, требующих взаимосвязи между текстом и изображениями, таких как:

Стиль передачи: Генерация изображений в разных художественных стилях.
Симуляция реального мира: Создание последовательностей изображений, показывающих изменения в сценах.
Объяснение научных явлений: Генерация текстов и изображений, объясняющих сложные научные концепции.

Оценка моделей

С использованием ISG-BENCH было проведено тестирование девяти доступных методов генерации интерливинг контента. Результаты показали, что современные унифицированные модели демонстрируют значительные недостатки в генерации интерливинг контента, в то время как композитные подходы, объединяющие отдельные языковые и визуальные модели, показали улучшенные результаты.

Результаты и анализ

Эффективность моделей

Композитные модели продемонстрировали улучшение на 111% по сравнению с унифицированными моделями на голистическом уровне. Однако, несмотря на это, их производительность оставалась субоптимальной на уровне блоков и изображений. Это указывает на необходимость дальнейшей оптимизации архитектур для достижения более высокой точности генерации.

Проблемы унифицированных моделей

Унифицированные модели, такие как Show-o и Anole, показали сильные результаты в языковых задачах, но значительно отставали в задачах, требующих визуального понимания. Например, они часто не могли правильно интерпретировать структурные требования, что приводило к несоответствию между текстом и изображениями.

ISG-AGENT: Новый базовый агент

Для дальнейшего улучшения генерации интерливинг контента был разработан ISG-AGENT, который использует подход "Планируй-Исполняй-Уточняй". Этот агент включает в себя три компонента:

Планирование: Генерация последовательного плана действий на основе пользовательского запроса.
Исполнение: Вызов различных инструментов для генерации изображений и текстов.
Уточнение: Обработка ошибок и улучшение качества сгенерированного контента.

Примеры работы ISG-AGENT

ISG-AGENT продемонстрировал высокую эффективность в задачах, требующих визуального контента. Например, в задаче "Как сделать сок из сельдерея?" агент смог сгенерировать последовательность изображений и текстов, четко следуя пользователю заданным инструкциям.

Заключение

Работа, представленная в ISG и ISG-BENCH, открывает новые горизонты для генерации интерливинг контента. Сложные зависимости между текстом и изображениями требуют высококачественных моделей и бенчмарков для их оценки. В будущем, дальнейшие исследования могут привести к улучшению унифицированных моделей и созданию более надежных систем для генерации контента, что в свою очередь повысит качество взаимодействия пользователя с такими системами.

Разработка и оптимизация таких моделей имеет огромное значение для создания более интуитивных и понятных интерфейсов, которые смогут эффективно решать задачи пользователей в реальном времени.

Статья на arxiv Оригинал pdf evaluation models consistency

Ай Дайджест