Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "corpus"

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.

guicorpusood

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.