Ай Дайджест - категория transparency

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

2024-12-17nlp bias democratization

Полностью открытый исходный код Moxin-LLM: Технический отчет

Недавно большие языковые модели (LLM) претерпели значительную трансформацию, отмеченную быстрым ростом как их популярности, так и возможностей. Ведущими в этой эволюции являются проприетарные LLM, такие как GPT-4 и GPT-01, которые привлекли широкое внимание в сообществе ИИ благодаря своим выдающимся показателям и универсальности. Одновременно открытые LLM, такие как LLaMA и Mistral, внесли большой вклад в постоянно растущую популярность LLM благодаря легкости настройки и развертывания моделей в различных приложениях. Хотя открытые LLM предоставляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения по поводу прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют основным требованиям прозрачности, удерживая важные компоненты, такие как код и данные для обучения, а некоторые используют ограничительные лицензии, утверждая, что они "открытые", что может препятствовать дальнейшим инновациям в области LLM. Чтобы смягчить эту проблему, мы представляем Moxin 7B, полностью открытый LLM, разработанный в соответствии с рамками открытости моделей (MOF), системой ранговой классификации, которая оценивает модели ИИ на основе полноты модели и открытости, соблюдая принципы открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря комплексному выпуску кода и конфигураций дообучения, наборов данных для обучения и тонкой настройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель демонстрирует превосходные результаты в нулевом тестировании по сравнению с популярными 7B моделями и показывает конкурентные результаты в тестировании с малым количеством примеров.

2024-12-11open-source innovation models

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

2024-12-11representation decoding transparency

Путь к репликации O1: Простая дистилляция и её последствия

Эта статья представляет собой критический анализ текущих подходов к репликации возможностей модели O1 от OpenAI, с особым акцентом на широко распространённое, но часто не раскрываемое использование техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к репликации O1, данное исследование показывает, как простая дистилляция с использованием API O1, в сочетании с контролируемой настройкой, может достигать превосходных результатов в сложных задачах математического рассуждения. Путём обширных экспериментов мы показываем, что базовая модель, настроенная на десятки тысяч образцов, дистиллированных из O1, превосходит предварительную версию O1 на Американском пригласительном математическом экзамене (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за рамки математического рассуждения и исследует возможности обобщения моделей, дистиллированных из O1, на разнообразные задачи: галлюцинации, безопасность и вопросы и ответы в открытом домене. Отметим, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого QA и стали значительно менее подвержены подхалимству после настройки. Мы намеренно публикуем эти результаты для содействия прозрачности в исследованиях ИИ и для оспаривания текущей тенденции к скрытию технических утверждений в этой области. Наша работа включает: (1) детальное техническое изложение процесса дистилляции и его эффективности, (2) всеобъемлющую рамку бенчмарков для оценки и категоризации попыток репликации O1 на основе их технической прозрачности и воспроизводимости, (3) критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции. Наш анализ завершается важным горьким уроком: хотя стремление к созданию более способных систем ИИ важно, развитие исследователей, опирающихся на мышление с первых принципов, является первостепенным.

2024-11-26benchmark transparency distillation

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

2024-11-20model dataset curation