Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

В мире, где финансовые технологии развиваются стремительными темпами, роль моделей большого языка (LLM) становится всё более значимой. Эти модели, способные обрабатывать и анализировать огромные объемы текстовой информации, находят своё применение в различных аспектах финансового сектора, от анализа настроений до прогнозирования движения акций. Однако, чтобы действительно оценить их эффективность, необходимо иметь надежные и всесторонние методы оценки. В этом контексте появляется "Золотой камень" (Golden Touchstone), первый комплексный билингвальный бенчмарк, разработанный для оценки финансовых LLM.

Введение в "Золотой камень"

"Золотой камень" представляет собой уникальный бенчмарк, который включает в себя наборы данных на английском и китайском языках по восьми ключевым задачам обработки естественного языка (NLP) в финансовом секторе. Этот бенчмарк был разработан с целью преодолеть ограничения существующих финансовых бенчмарков, которые часто страдают от недостаточного охвата языков и задач, а также от проблем с качеством данных и адаптацией для оценки LLM.

Основные задачи "Золотого камня"

Анализ настроений: Определение настроения финансовых новостей или комментариев.
Классификация: Категоризация финансовых текстов по темам или типам событий.
Извлечение сущностей: Идентификация и классификация финансовых сущностей в тексте, таких как имена компаний, местоположения и т.д.
Извлечение отношений: Определение отношений между сущностями в финансовом контексте.
Множественный выбор: Ответ на вопросы с выбором из нескольких вариантов.
Суммаризация: Создание краткого резюме из длинных финансовых документов.
Ответы на вопросы: Предоставление точных ответов на финансовые вопросы.
Прогнозирование движения акций: Предсказание изменений в цене акций на основе новостей.

Методология оценки

"Золотой камень" использует инструкционные шаблоны для каждой задачи, которые помогают моделям генерировать соответствующие ответы. Все задачи организованы в формате инструкция-вход-выход, что облегчает использование и оценку различных моделей. Оценка моделей проводится на основе точности, F1-меры и других метрик, специфичных для каждой задачи.

Результаты и анализ

Анализ настроений

В анализе настроений модели, такие как GPT-4o, Qwen-2 и Llama-3, показали высокую точность, особенно на английском языке. Это указывает на их способность понимать и интерпретировать финансовые тексты. Однако, специализированные модели, такие как FinGPT и FinMA, также продемонстрировали конкурентоспособные результаты, подчеркивая важность специализированной настройки для финансовых задач.

Классификация

Задачи классификации оказались более сложными, особенно на китайском языке, где модели показали более низкие результаты. Это может быть связано с особенностями языка и спецификой финансовой терминологии.

Извлечение сущностей

В задаче извлечения сущностей модели, такие как Qwen-2 и Llama-3, превзошли GPT-4o, что подчеркивает важность специализированной настройки для понимания и извлечения финансовых сущностей.

Прогнозирование движения акций

Прогнозирование движения акций оказалось одной из самых сложных задач, где даже модели с высококачественной настройкой, такие как Llama-3, не достигли практического уровня точности. Это указывает на необходимость интеграции количественных данных и мультимодальных подходов для улучшения прогнозов.

Заключение и будущие направления

"Золотой камень" предоставляет ценный инструмент для оценки и дальнейшего развития финансовых LLM. Он подчеркивает как сильные стороны, так и ограничения современных моделей, предлагая направления для будущих исследований:

Расширение задач NLP: Включение дополнительных задач, таких как генерация отчетов и более сложный анализ настроений.
Мультимодальные подходы: Интеграция визуальных и временных данных для улучшения прогнозирования и анализа.
Улучшение данных: Создание более качественных и разнообразных наборов данных для тренировки моделей.
Специализированные модели: Разработка моделей, ориентированных на конкретные финансовые задачи и сектора.

"Золотой камень" не только служит практическим инструментом для оценки финансовых LLM, но и стимулирует дальнейшие исследования и разработки в этой области. Исходный код бенчмарка и модель Touchstone-GPT доступны в открытом доступе, что способствует коллективным усилиям по улучшению финансовых технологий на основе AI.

Статья на arxiv Оригинал pdf tasks evaluation datasets

Ай Дайджест