Свежая выжимка ml и AI статей - каждый день
В последние годы генеративные языковые модели (ГЯМ) значительно изменили ландшафт обработки естественного языка (ОЕЯ), позволяя создавать системы, которые могут генерировать и взаимодействовать с человеческим языком на беспрецедентном уровне. Это относится и к норвежскому языку, для которого было обучено и опубликовано несколько больших языковых моделей (БЯМ) с использованием различных архитектур и лицензионных решений. Однако огромные объемы данных, необходимых для обучения этих моделей, часто включают авторские материалы, что создает новые проблемы, связанные с правами интеллектуальной собственности и компенсацией.
С начала использования ГЯМ возникли юридические и этические вопросы, касающиеся использования авторских материалов. Существуют многочисленные судебные иски, которые ставят под сомнение законность обучения моделей на авторских данных без явного разрешения от создателей контента. В этом контексте настоящая работа представляет собой первую попытку эмпирически оценить влияние авторского контента на производительность БЯМ для норвежского языка.
Методология исследования охватывает несколько этапов. Сначала был собран разнообразный корпус данных, в основном на норвежском языке, который включает как авторские, так и неавторские материалы. Этот корпус служит основой для обучения различных БЯМ, каждая из которых имеет разные конфигурации и уровни доступа к авторскому контенту.
Для обеспечения надежности и достоверности были разработаны условия обучения, позволяющие сравнивать модели, обученные на различных наборах данных. Используя новую созданную оценочную систему, мы можем оценить производительность каждой модели и сделать сравнение значимым.
В центре нашего исследования стоит необходимость в четких руководствах и хорошо продуманных механизмах компенсации в Норвегии. Мы должны были придерживаться норвежского законодательства (Åndsverkloven), которое определяет, какие работы защищены авторским правом и что нам разрешено делать с этими работами. В соответствии с положениями, позволяющими исследования в области языковых технологий и добычи данных, а также с согласием норвежских организаций праводержателей, это исследование в основном полагалось на материалы, легально размещенные в Национальной библиотеке Норвегии.
Мы сотрудничали с Национальной библиотекой Норвегии и организациями праводержателей для получения доступа к защищенным материалам для создания наших наборов данных. Также были добавлены другие источники через специальные соглашения с третьими сторонами, такими как Норвежская радиовещательная корпорация (NRK) и газетные конгломераты Amedia и Schibsted.
Эта смесь данных позволила нам оценить влияние высококачественного авторского материала по сравнению с неавторскими альтернативами. Модели, обученные на авторских материалах, не будут публично доступны для дальнейшего использования и служат только для целей этого исследования.
Мы адаптировали и обновили Норвежский колоссальный корпус (NCC) с новыми актуальными материалами, очисткой, дедупликацией, тегированием метаданных и обеспечением единого формата и функциональности по всем наборам данных. Корпус был разделен на два основных набора данных: базовый набор, исключающий авторские материалы, и расширенный набор, который включает все собранные тексты.
Мы решили включить тексты из других скандинавских языков (шведского, датского и исландского) и английского языка, чтобы повысить производительность получившихся языковых моделей. Для обеспечения сбалансированности языков мы адаптировали стратегию выборки на основе перплексии, чтобы поддерживать высокое качество в выбранных данных.
Авторские материалы, присутствующие в расширенном наборе данных, были дополнительно разделены на группы. Эти подмножества были тщательно разработаны для тестирования влияния специфических характеристик авторского контента. Мы создали подмножества для книг против газет, художественной литературы против фактического контента и оригинальных норвежских текстов против переводов.
Фаза обучения включала несколько моделей, каждая из которых основана на архитектуре Mistral. Обучение проводилось в несколько этапов. Сначала мы измерили общий эффект авторских материалов в реалистичных сценариях, проводя предварительное обучение на базовом и расширенном наборах данных.
Для дальнейшего изолирования эффекта различных абляций авторских материалов мы непрерывно дообучали модель, обученную на базовом наборе, для дополнительных 10 000 шагов на каждом из 9 доменных подмножеств. В общей сложности мы обучили 17 моделей (по 7 миллиардов параметров каждая), используя в общей сложности 270 000 GPU-часов.
Оценка генеративных БЯМ является сложной задачей, особенно для норвежского языка, где на начальном этапе нашей работы существовало мало ресурсов. Мы собрали набор из 28 общих задач ОЕЯ, охватывающих различные метрики для оценки производительности каждой из моделей. Эти задачи можно сгруппировать в 9 более высоких уровней навыков, таких как анализ настроений, понимание прочитанного и общее знание мира.
Оценка обученных моделей показала, что включение авторских материалов обеспечивало измеримое повышение производительности по ряду задач ОЕЯ. Например, базовая конфигурация модели, которая использовала авторские материалы, показала лучшие результаты в задачах анализа настроений и общего знания мира.
Интересно, что добавление художественной литературы снизило производительность модели, что указывает на необходимость дальнейшего изучения влияния различных типов текстов на производительность моделей.
Использование авторских материалов в обучении моделей вызывает значительные этические и юридические вопросы. Наблюдаемые улучшения в качестве моделей должны быть сбалансированы с правами создателей контента, которые не давали согласия на использование своих работ. Это подчеркивает необходимость четких руководств и справедливых механизмов компенсации, которые признают ценность авторских материалов в разработке БЯМ.
Собранные эмпирические данные имеют решающее значение для информирования политики в области авторского права в цифровую эпоху. Политики могут использовать эти результаты для создания рамок, которые обеспечивают адекватную компенсацию создателям, балансируя потребности инноваций БЯМ с правами авторов и издателей.
Наше исследование представляет собой новаторскую попытку количественно оценить влияние авторских материалов на БЯМ для норвежского языка. Результаты показывают, что высококачественный авторский контент значительно улучшает производительность модели, особенно для сложных задач ОЕЯ. Однако эти преимущества сопровождаются этическими и юридическими вызовами, которые необходимо решить для обеспечения устойчивого и справедливого подхода к разработке БЯМ.
Будущие исследования должны сосредоточиться на тестировании моделей различных масштабов и различных предварительно обученных открытых весов, чтобы лучше понять, как состав набора данных влияет на производительность. Эксперименты с моделями разных размеров могут помочь выявить пороги масштабирования, при которых влияние авторских материалов значительно варьируется.