Свежая выжимка ml и AI статей - каждый день
Способность формировать аналогии является основополагающим аспектом человеческого познания. Пропорциональные аналогии, представляющие собой набор из четырех терминов, часто используются для оценки лингвистических и когнитивных способностей. Например, завершение аналогий, таких как "Кислород относится к Газу, как <пусто> относится к <пусто>", требует выявления семантической связи между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая имеет аналогичное отношение (например, "Алюминий" и "Металл"). В данной работе мы представляем набор данных из 15 000 вопросов в формате множественного выбора для завершения пропорциональных аналогий и оцениваем производительность современных больших языковых моделей (LLM) в различных условиях улучшенного запроса знаний.
Несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM. В нашем исследовании мы вводим три типа знаний для улучшения запросов: примеры, структурированные и целевые. Результаты показывают, что предоставление целевых знаний значительно улучшает производительность моделей по завершению пропорциональных аналогий по сравнению с примерами или структурированными знаниями.
Пропорциональные аналогии представлены в формате A:B::C:D, что означает "A относится к B так же, как C относится к D". Эти аналогии включают четыре термина, где связь между первой парой (A и B) аналогична связи между второй парой (C и D). Пропорциональные аналогии помогают в оценке способности моделей к аналогическому рассуждению.
С появлением генеративных моделей искусственного интеллекта (GenAI), таких как LLM, исследователи начали оценивать их способности в решении пропорциональных аналогий. Ранее проводимые исследования показывали, что LLM могут успешно справляться с задачами аналогического рассуждения, однако результаты варьировались в зависимости от используемых наборов данных и методик.
Мы разработали набор данных из 15 000 пропорциональных аналогий, охватывающий 238 различных типов семантических отношений. Набор данных включает вопросы в формате множественного выбора, где необходимо выбрать правильный ответ из нескольких вариантов. Мы использовали существующие ресурсы для создания MCQ и добавили новые примеры для достижения более высокого разнообразия.
В нашем исследовании мы применили четыре различных техники запроса:
Каждая техника была протестирована на девяти современных моделях GenAI, чтобы оценить их производительность в решении пропорциональных аналогий.
Наивысшая производительность была достигнута моделью GPT-3.5-Turbo с точностью 55.25% при использовании TKP. Интересно, что при использовании структурированных знаний производительность этой же модели снизилась до 38%. Это подчеркивает, что простое добавление знаний не всегда приводит к улучшению результатов в сложных задачах, таких как завершение пропорциональных аналогий.
Наши результаты показывают, что добавление целевых знаний значительно улучшает производительность моделей. Например, использование TKP привело к улучшению производительности на 21% по сравнению с запросами без знаний и на 45% по сравнению с запросами, улучшенными структурированными знаниями.
Хотя добавление структурированных знаний иногда приводит к небольшим улучшениям, в большинстве случаев их влияние на производительность было ограниченным. Это может быть связано с тем, что в некоторых случаях слишком много информации создает шум и затрудняет процесс принятия решений моделями.
В этом исследовании мы изучили способности девяти LLM в решении пропорциональных аналогий с использованием различных техник улучшенного запроса знаний. Наши эксперименты показали, что большинство моделей показывают наилучшие результаты при добавлении целевых знаний. Это открывает новые перспективы для дальнейшего исследования, включая возможность создания специализированных моделей, обученных на задачах аналогического рассуждения, и использование автоматизированных подходов к созданию запросов.
Мы планируем расширить наше исследование, включая больше типов знаний и оценку моделей, специально обученных для решения пропорциональных аналогий. Также будет полезно исследовать влияние автоматизированных техник создания запросов на производительность LLM в аналогическом рассуждении.