Ай Дайджест - категория nlp

Evalica: Надежные и Быстрые Лидирующие Таблицы для Оценки Моделей NLP

Быстрые достижения технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требуют разработки современных протоколов оценки с человеческой и машинной обратной связью. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который упрощает создание надежных и воспроизводимых таблиц лидеров моделей. В этой статье мы представляем его дизайн, оцениваем его производительность и демонстрируем его удобство через веб-интерфейс, интерфейс командной строки и Python API.

2024-12-17performance api feedback

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

2024-12-17bias model nlp

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

2024-11-19training benchmark evaluation

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

2024-11-18model pretraining multilingual

CamemBERT 2.0: Эволюция французского языкового моделирования

Модели французского языка, такие как CamemBERT, были широко приняты в различных отраслях для задач обработки естественного языка (NLP), причем модели вроде CamemBERT имеют более 4 миллионов загрузок в месяц. Однако эти модели сталкиваются с вызовами из-за временного смещения концепций, когда устаревшие обучающие данные приводят к снижению производительности, особенно при встрече с новыми темами и терминологией. Этот вопрос подчеркивает необходимость обновления моделей, отражающих современные лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих проблем. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует задачу обнаружения замененных токенов (RTD) для улучшения понимания контекста, в то время как CamemBERTv2 построена на RoBERTa, которая использует задачу маскированного моделирования языка (MLM). Обе модели обучены на значительно большем и более актуальном наборе данных с удлиненной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общих задачах NLP, так и в специфических областях применения, таких как медицинские задачи, демонстрируя их универсальность и эффективность в различных случаях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны в открытом доступе на платформе Huggingface.

2024-11-14model architecture training

Энергоэффективные модели языка белков: Использование малых языковых моделей с LoRA для контролируемой генерации белков

Крупные языковые модели (LLM) показали значительный успех в задачах обработки естественного языка (NLP) и продемонстрировали многообещающие результаты в других областях, таких как генерация последовательностей белков. Однако существуют существенные различия между LLM, используемыми для NLP, которые эффективно справляются с множеством задач и доступны в небольших размерах, и языковыми моделями белков, которые часто специализированы для конкретных задач и существуют только в более крупных размерах. В этой работе мы представляем две небольшие языковые модели белков, основанные на Llama-3-8B и Phi-3-mini, которые способны генерировать белки как неконтролируемым, так и контролируемым способом. Для задачи неконтролируемой генерации наша лучшая модель достигает среднего pLDDT-оценки 69.75, что свидетельствует о надежной работоспособности при создании жизнеспособных структур белков. Для задачи контролируемой генерации, где модель генерирует белки в соответствии с заданными в запросе свойствами, мы достигли выдающегося среднего TM-Score в 0.84, что указывает на высокую структурную схожесть с целевыми белками. Мы выбрали 10 свойств, включая шесть классов ферментов, чтобы расширить возможности предыдущих языковых моделей белков. Наш подход использует технику Low-Rank Adaptor (LoRA), сокращая количество обучаемых параметров до всего 4% от исходного размера модели, что снижает вычислительные требования. Используя подмножество набора данных UniRef50 и небольшие модели, мы сократили общее время обучения на 70% без ущерба для производительности. Стоит отметить, что Phi-3-mini сократил количество обучаемых параметров на 60%, уменьшив затраты на обучение на 30% по сравнению с Llama 3. В результате, Phi-3 достигла сопоставимого TM-Score в 0.81, демонстрируя, что меньшие модели могут соответствовать производительности более крупных, таких как Llama 3. Мы также продемонстрировали развертывание наших моделей на энергосберегающем чипе ET-SoC-1, значительно улучшив TPS/W в три раза.

2024-11-12training nlp adaptor

Информационный поиск в коде-минглинге: Объединение подсказок и математических моделей

Смешение кодов, интеграция лексических и грамматических элементов из нескольких языков в пределах одного предложения, является широко распространенным лингвистическим явлением, особенно в многоязычных обществах. В Индии пользователи социальных сетей часто ведут смешанные коды разговоров с использованием латинского алфавита, особенно среди мигрантских сообществ, которые создают онлайн-группы для обмена актуальной местной информацией. В данной статье рассматриваются проблемы извлечения актуальной информации из смешанных кодов разговоров, в частности, из бенгальского языка, транслитерированного в латиницу и смешанного с английским. Это исследование предлагает новый подход к решению этих проблем путем разработки механизма для автоматического выявления наиболее релевантных ответов из смешанных кодов разговоров. Мы провели эксперименты на наборе данных, состоящем из запросов и документов из Facebook, а также файлов релевантности запросов (QRels), чтобы помочь в этой задаче. Наши результаты демонстрируют эффективность нашего подхода в извлечении значимой информации из сложных, смешанных кодов цифровых разговоров, что вносит вклад в более широкую область обработки естественного языка в многоязычных и неформальных текстовых средах. Мы используем GPT-3.5 Turbo через запросы, а также используем последовательную природу релевантных документов для построения математической модели, которая помогает обнаруживать релевантные документы, соответствующие запросу.

2024-11-08nlp code-mixing query