Свежая выжимка ml и AI статей - каждый день
В мире, где финансовые технологии развиваются стремительными темпами, роль моделей большого языка (LLM) становится всё более значимой. Эти модели, способные обрабатывать и анализировать огромные объемы текстовой информации, находят своё применение в различных аспектах финансового сектора, от анализа настроений до прогнозирования движения акций. Однако, чтобы действительно оценить их эффективность, необходимо иметь надежные и всесторонние методы оценки. В этом контексте появляется "Золотой камень" (Golden Touchstone), первый комплексный билингвальный бенчмарк, разработанный для оценки финансовых LLM.
"Золотой камень" представляет собой уникальный бенчмарк, который включает в себя наборы данных на английском и китайском языках по восьми ключевым задачам обработки естественного языка (NLP) в финансовом секторе. Этот бенчмарк был разработан с целью преодолеть ограничения существующих финансовых бенчмарков, которые часто страдают от недостаточного охвата языков и задач, а также от проблем с качеством данных и адаптацией для оценки LLM.
Анализ настроений: Определение настроения финансовых новостей или комментариев.
Классификация: Категоризация финансовых текстов по темам или типам событий.
Извлечение сущностей: Идентификация и классификация финансовых сущностей в тексте, таких как имена компаний, местоположения и т.д.
Извлечение отношений: Определение отношений между сущностями в финансовом контексте.
Множественный выбор: Ответ на вопросы с выбором из нескольких вариантов.
Суммаризация: Создание краткого резюме из длинных финансовых документов.
Ответы на вопросы: Предоставление точных ответов на финансовые вопросы.
Прогнозирование движения акций: Предсказание изменений в цене акций на основе новостей.
"Золотой камень" использует инструкционные шаблоны для каждой задачи, которые помогают моделям генерировать соответствующие ответы. Все задачи организованы в формате инструкция-вход-выход, что облегчает использование и оценку различных моделей. Оценка моделей проводится на основе точности, F1-меры и других метрик, специфичных для каждой задачи.
В анализе настроений модели, такие как GPT-4o, Qwen-2 и Llama-3, показали высокую точность, особенно на английском языке. Это указывает на их способность понимать и интерпретировать финансовые тексты. Однако, специализированные модели, такие как FinGPT и FinMA, также продемонстрировали конкурентоспособные результаты, подчеркивая важность специализированной настройки для финансовых задач.
Задачи классификации оказались более сложными, особенно на китайском языке, где модели показали более низкие результаты. Это может быть связано с особенностями языка и спецификой финансовой терминологии.
В задаче извлечения сущностей модели, такие как Qwen-2 и Llama-3, превзошли GPT-4o, что подчеркивает важность специализированной настройки для понимания и извлечения финансовых сущностей.
Прогнозирование движения акций оказалось одной из самых сложных задач, где даже модели с высококачественной настройкой, такие как Llama-3, не достигли практического уровня точности. Это указывает на необходимость интеграции количественных данных и мультимодальных подходов для улучшения прогнозов.
"Золотой камень" предоставляет ценный инструмент для оценки и дальнейшего развития финансовых LLM. Он подчеркивает как сильные стороны, так и ограничения современных моделей, предлагая направления для будущих исследований:
Расширение задач NLP: Включение дополнительных задач, таких как генерация отчетов и более сложный анализ настроений.
Мультимодальные подходы: Интеграция визуальных и временных данных для улучшения прогнозирования и анализа.
Улучшение данных: Создание более качественных и разнообразных наборов данных для тренировки моделей.
Специализированные модели: Разработка моделей, ориентированных на конкретные финансовые задачи и сектора.
"Золотой камень" не только служит практическим инструментом для оценки финансовых LLM, но и стимулирует дальнейшие исследования и разработки в этой области. Исходный код бенчмарка и модель Touchstone-GPT доступны в открытом доступе, что способствует коллективным усилиям по улучшению финансовых технологий на основе AI.