Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

В последние годы область больших мультимодальных моделей (LMM) претерпела значительные изменения, что привело к появлению разнообразных моделей с выдающимися возможностями. Однако существующие методики оценки не обеспечивают полного, объективного и точного анализа того, насколько LMM соответствуют разнообразным потребностям человека в реальных сценариях. Для преодоления этого пробела была предложена новая методика оценки под названием Многомерные Инсайты (MDI), которая включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни.

Создание персонализированных искусственных интеллектов (AI), способных удовлетворять разнообразные потребности различных пользователей, является значимой задачей для человечества. В идеале, AI-ассистент должен быть способен точно реагировать на специфические запросы пользователей, учитывая их возраст, культурный контекст и профессиональную сферу. Совсем недавно искусственный интеллект пережил значительный парадигмальный сдвиг — от специализированных малых моделей, предназначенных для выполнения конкретных простых задач, к унифицированным большим мультимодальным моделям, способным справляться с более сложными задачами.

Проблема существующих методик оценки

Несмотря на прогресс в разработке LMM, существующие методики оценки, такие как VQA и GQA, в основном сравнивают ответы моделей с эталонными решениями, что не дает глубокого понимания тонких возможностей моделей. Они не учитывают, могут ли LMM действительно соответствовать актуальным потребностям человека в реальных сценариях и способны ли они удовлетворять разнообразные запросы различных групп пользователей.

MDI-Бенчмарк

Структура и состав

MDI-Бенчмарк включает более 500 изображений и 1200 вопросов, охватывающих шесть основных сценариев человеческой жизни: архитектура, образование, домашние дела, социальные услуги, спорт и транспорт. Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки базового понимания изображения и сложными вопросами для проверки способности модели к анализу и логическому рассуждению.

Измерение сложности вопросов

В MDI-Бенчмарке вопросы классифицируются по двум уровням сложности:

Первый уровень: Оценивает базовые способности LMM, такие как обнаружение объектов и оптическое распознавание символов (OCR).
Второй уровень: Оценивает более сложные способности, включая логическое рассуждение, математические вычисления и применение знаний.

Учет возрастных факторов

Возраст является важным критерием для оценки индивидуальных различий, так как люди разных возрастных групп имеют различные потребности и перспективы. В MDI-Бенчмарке вопросы разбиты на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Это позволяет более детально оценить способности LMM в удовлетворении предпочтений и потребностей различных возрастных групп.

Результаты и выводы

На основе MDI-Бенчмарка была проведена оценка нескольких основных LMM. Модель GPT-4o показала наилучшие результаты, достигнув 79% точности в задачах, связанных с возрастом. Однако, несмотря на высокие показатели, существующие LMM все еще имеют значительные возможности для улучшения в контексте реальных приложений.

Перспективы и направления для будущих исследований

MDI-Бенчмарк открывает новые пути для выравнивания реальной персонализации в LMM. Ожидается, что будущие исследования будут сосредоточены на улучшении адаптивности LMM к потребностям человека и их способности обобщать информацию в различных областях и возрастных группах. Это приведет к созданию более совершенных и персонализированных AI-ассистентов, способных эффективно справляться с разнообразными задачами в реальной жизни.

Заключение

MDI-Бенчмарк представляет собой ценный инструмент для оценки возможностей LMM в удовлетворении реальных человеческих потребностей в многомерных сценариях. Он включает более 500 изображений и 1200 соответствующих вопросов, охватывающих шесть основных аспектов человеческой жизни. Внедрение концепции возрастной стратификации и выбор вопросов на основе потребностей различных возрастных групп позволяет обеспечить комплексную оценку. Используя MDI-Бенчмарк, исследователи могут выявить предпочтения моделей в разных сценариях, что подчеркивает необходимость дальнейших исследований для улучшения адаптивности LMM к потребностям человека.

Статья на arxiv Оригинал pdf multimodal benchmark evaluation

Ай Дайджест