Свежая выжимка ml и AI статей - каждый день
С развитием многомодальных языковых моделей (MLLM) и диффузионных моделей наблюдается рост интереса к системам, способным одновременно генерировать текст и изображения. В данной статье мы рассмотрим концепции, представленные в недавней работе, посвященной интерливингу текстов и изображений, а также новым методам оценки таких систем.
Современные пользователи требуют от систем генерации контента, чтобы они могли создавать не только текстовые ответы, но и визуальные элементы одновременно. Например, когда пользователь задает вопрос "Как приготовить жареный рис с яйцом?", ответ в виде списка шагов может быть недостаточным. Более предпочтительным было бы интерливинг текстовых инструкций с соответствующими изображениями, что создает более интерактивный и понятный контент, подобно кулинарным книгам.
Однако, создание интерливинг контента представляет собой сложную задачу. Необходимо обеспечить согласованность между текстом и изображениями, а также между самими изображениями. Для решения этих проблем была предложена новая структура оценки, называемая ISG (Interleaved Scene Graph).
ISG использует граф сцены как основную семантическую модель для представления взаимосвязей между текстовыми и визуальными блоками. Каждый блок может быть определен как непрерывная последовательность текстовых или визуальных токенов. Эта структура позволяет проводить оценку на четырех уровнях:
Каждый уровень имеет свои вопросы и ответы, что позволяет проводить детальную и интерпретируемую оценку.
Вместе с ISG был представлен бенчмарк ISG-BENCH, содержащий 1150 образцов по 8 категориям и 21 подкатегории. Этот набор данных включает сложные зависимости между языком и изображениями, а также "золотые" ответы для эффективной оценки моделей на задачах, связанных с визуализацией.
ISG-BENCH акцентирует внимание на задачах, требующих взаимосвязи между текстом и изображениями, таких как:
С использованием ISG-BENCH было проведено тестирование девяти доступных методов генерации интерливинг контента. Результаты показали, что современные унифицированные модели демонстрируют значительные недостатки в генерации интерливинг контента, в то время как композитные подходы, объединяющие отдельные языковые и визуальные модели, показали улучшенные результаты.
Композитные модели продемонстрировали улучшение на 111% по сравнению с унифицированными моделями на голистическом уровне. Однако, несмотря на это, их производительность оставалась субоптимальной на уровне блоков и изображений. Это указывает на необходимость дальнейшей оптимизации архитектур для достижения более высокой точности генерации.
Унифицированные модели, такие как Show-o и Anole, показали сильные результаты в языковых задачах, но значительно отставали в задачах, требующих визуального понимания. Например, они часто не могли правильно интерпретировать структурные требования, что приводило к несоответствию между текстом и изображениями.
Для дальнейшего улучшения генерации интерливинг контента был разработан ISG-AGENT, который использует подход "Планируй-Исполняй-Уточняй". Этот агент включает в себя три компонента:
ISG-AGENT продемонстрировал высокую эффективность в задачах, требующих визуального контента. Например, в задаче "Как сделать сок из сельдерея?" агент смог сгенерировать последовательность изображений и текстов, четко следуя пользователю заданным инструкциям.
Работа, представленная в ISG и ISG-BENCH, открывает новые горизонты для генерации интерливинг контента. Сложные зависимости между текстом и изображениями требуют высококачественных моделей и бенчмарков для их оценки. В будущем, дальнейшие исследования могут привести к улучшению унифицированных моделей и созданию более надежных систем для генерации контента, что в свою очередь повысит качество взаимодействия пользователя с такими системами.
Разработка и оптимизация таких моделей имеет огромное значение для создания более интуитивных и понятных интерфейсов, которые смогут эффективно решать задачи пользователей в реальном времени.