Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Способность формировать аналогии является основополагающим аспектом человеческого познания. Пропорциональные аналогии, представляющие собой набор из четырех терминов, часто используются для оценки лингвистических и когнитивных способностей. Например, завершение аналогий, таких как "Кислород относится к Газу, как <пусто> относится к <пусто>", требует выявления семантической связи между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая имеет аналогичное отношение (например, "Алюминий" и "Металл"). В данной работе мы представляем набор данных из 15 000 вопросов в формате множественного выбора для завершения пропорциональных аналогий и оцениваем производительность современных больших языковых моделей (LLM) в различных условиях улучшенного запроса знаний.

Проблема и цель исследования

Несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM. В нашем исследовании мы вводим три типа знаний для улучшения запросов: примеры, структурированные и целевые. Результаты показывают, что предоставление целевых знаний значительно улучшает производительность моделей по завершению пропорциональных аналогий по сравнению с примерами или структурированными знаниями.

Типы аналогий и LLM

Пропорциональные аналогии

Пропорциональные аналогии представлены в формате A:B::C:D, что означает "A относится к B так же, как C относится к D". Эти аналогии включают четыре термина, где связь между первой парой (A и B) аналогична связи между второй парой (C и D). Пропорциональные аналогии помогают в оценке способности моделей к аналогическому рассуждению.

Большие языковые модели

С появлением генеративных моделей искусственного интеллекта (GenAI), таких как LLM, исследователи начали оценивать их способности в решении пропорциональных аналогий. Ранее проводимые исследования показывали, что LLM могут успешно справляться с задачами аналогического рассуждения, однако результаты варьировались в зависимости от используемых наборов данных и методик.

Подход к исследованию

Создание набора данных

Мы разработали набор данных из 15 000 пропорциональных аналогий, охватывающий 238 различных типов семантических отношений. Набор данных включает вопросы в формате множественного выбора, где необходимо выбрать правильный ответ из нескольких вариантов. Мы использовали существующие ресурсы для создания MCQ и добавили новые примеры для достижения более высокого разнообразия.

Техники улучшенного запроса

В нашем исследовании мы применили четыре различных техники запроса:

Zero-shot Prompting: Запросы без дополнительной информации.
Few-shot Prompting: Запросы с примерами из набора данных.
Structured Knowledge Prompting (SKP): Запросы, дополненные структурированными знаниями из внешних источников.
Targeted Knowledge Prompting (TKP): Запросы, включающие целевые знания, специфичные для решения пропорциональных аналогий.

Каждая техника была протестирована на девяти современных моделях GenAI, чтобы оценить их производительность в решении пропорциональных аналогий.

Результаты и обсуждение

Производительность моделей

Наивысшая производительность была достигнута моделью GPT-3.5-Turbo с точностью 55.25% при использовании TKP. Интересно, что при использовании структурированных знаний производительность этой же модели снизилась до 38%. Это подчеркивает, что простое добавление знаний не всегда приводит к улучшению результатов в сложных задачах, таких как завершение пропорциональных аналогий.

Влияние целевых знаний

Наши результаты показывают, что добавление целевых знаний значительно улучшает производительность моделей. Например, использование TKP привело к улучшению производительности на 21% по сравнению с запросами без знаний и на 45% по сравнению с запросами, улучшенными структурированными знаниями.

Роль структурированных знаний

Хотя добавление структурированных знаний иногда приводит к небольшим улучшениям, в большинстве случаев их влияние на производительность было ограниченным. Это может быть связано с тем, что в некоторых случаях слишком много информации создает шум и затрудняет процесс принятия решений моделями.

Заключение и будущее направление исследований

В этом исследовании мы изучили способности девяти LLM в решении пропорциональных аналогий с использованием различных техник улучшенного запроса знаний. Наши эксперименты показали, что большинство моделей показывают наилучшие результаты при добавлении целевых знаний. Это открывает новые перспективы для дальнейшего исследования, включая возможность создания специализированных моделей, обученных на задачах аналогического рассуждения, и использование автоматизированных подходов к созданию запросов.

Перспективы будущих исследований

Мы планируем расширить наше исследование, включая больше типов знаний и оценку моделей, специально обученных для решения пропорциональных аналогий. Также будет полезно исследовать влияние автоматизированных техник создания запросов на производительность LLM в аналогическом рассуждении.

Статья на arxiv Оригинал pdf cognition language prompt

Ай Дайджест