EXAONE 3.5: Новые горизонты для больших языковых моделей

С ростом интереса к большим языковым моделям (LLM) и их применению в реальных сценариях, команда LG AI Research представила новую серию моделей EXAONE 3.5. Эти модели, обладающие улучшенными способностями, были разработаны с учетом обратной связи от исследовательского и индустриального сообществ. EXAONE 3.5 включает три конфигурации: 32B, 7.8B и 2.4B параметров, каждая из которых оптимизирована для различных задач и условий использования.

Основные возможности EXAONE 3.5

EXAONE 3.5 демонстрирует несколько ключевых характеристик:

Отличные способности к следованию инструкциям: Модели достигли наивысших результатов на семи бенчмарках, что свидетельствует об их способности эффективно реагировать на запросы пользователей в реальных условиях.
Выдающаяся способность к пониманию длинного контекста: Модели показывают выдающиеся результаты на четырех бенчмарках, что делает их пригодными для задач, требующих анализа больших объемов информации.
Конкурентоспособные результаты: EXAONE 3.5 показывает конкурентоспособные результаты по сравнению с современными открытыми моделями аналогичного размера на девяти общих бенчмарках.

Эти модели доступны для исследовательских целей и могут быть загружены с платформы Hugging Face.

Архитектура модели

EXAONE 3.5 основана на архитектуре Transformer, которая использует только декодер. Основные конфигурации моделей включают различное количество слоев, размерность и другие параметры, как показано в таблице 1.

| Модель | Параметры | Количество слоев | Размерность | Длина последовательности | |---------|-----------|------------------|-------------|--------------------------| | 32B | 32B | 64 | 27,392 | 32,768 | | 7.8B | 7.8B | 32 | 14,336 | 32,768 | | 2.4B | 2.4B | 30 | 7,168 | 32,768 |

Каждая модель поддерживает обработку длинного контекста до 32K токенов, что значительно превышает возможности предыдущей версии EXAONE 3.0, где максимальная длина контекста составляла лишь 4,096 токенов.

Подготовка модели

Препроцессинг и предобучение

Процесс подготовки моделей EXAONE 3.5 включает два этапа: предобучение и последующее обучение. На первом этапе используется обширный корпус данных, собранный из разнообразных источников, что способствует улучшению производительности на общих задачах. На втором этапе собираются дополнительные данные для конкретных доменов, которые требуют улучшения.

Для продления длины контекста применяется метод тонкой настройки длинного контекста, который включает в себя повторное использование части данных, использованных на первом этапе, чтобы избежать проблемы катастрофического забывания.

Деконтаминация данных

Одной из ключевых задач в подготовке моделей является деконтаминация данных. Это необходимо для удаления примеров, которые могут пересекаться с тестовыми наборами, что может негативно сказаться на обобщающей способности модели. Для этого применяется метод подстрокового сопоставления, который позволяет идентифицировать и исключить загрязненные примеры из обучающего процесса.

Оценка производительности

EXAONE 3.5 была оценена на различных бенчмарках, которые можно разделить на три категории:

Сценарии реального использования: Здесь модели должны демонстрировать способность понимать и выполнять разнообразные пользовательские инструкции.
Длинный контекст: Оценка способности моделей обрабатывать длинные последовательности текста.
Общие домены: Включает задачи, такие как решение математических задач и написание кода.

Результаты оценки

Результаты показали, что модели EXAONE 3.5, особенно в конфигурации 32B и 7.8B, превосходят аналогичные модели по всем категориям, демонстрируя высокие показатели как в сценариях реального использования, так и в задачах с длинным контекстом.

Ответственное использование ИИ

LG AI Research разработала EXAONE 3.5 в соответствии с принципами ответственного ИИ, что включает в себя управление данными, этические соображения и управление рисками. В процессе разработки моделей проводилась оценка потенциальных рисков, таких как неравенство и дискриминация, а также генерация вредоносного контента.

Заключение

EXAONE 3.5 представляет собой значительный шаг вперед в области больших языковых моделей, обеспечивая выдающуюся производительность в реальных сценариях и при обработке длинного контекста. Эти модели открывают новые возможности для исследователей и разработчиков, стремящихся использовать ИИ для улучшения человеческой жизни. LG AI Research призывает к сотрудничеству и открыт к обратной связи для дальнейшего улучшения моделей.

Статья на arxiv Оригинал pdf models performance benchmarks

Ай Дайджест