Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "post-training"

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

Улучшение способности следовать сложным инструкциям у больших языковых моделей через обратный перевод ограничений

Крупные языковые модели (LLMs) испытывают трудности с выполнением инструкций, содержащих сложные ограничения по формату, длине и т.д. Следуя традиционной практике настройки инструкций, предыдущие исследования проводили постобучение на парах сложных инструкций и ответов, сгенерированных путем подачи сложных инструкций в продвинутые LLM. Однако даже продвинутые LLM плохо справляются с выполнением сложных инструкций, что ограничивает качество генерируемых данных. В данной работе мы обнаруживаем, что существующие наборы данных уже содержат неявные сложные ограничения и предлагаем новый метод генерации данных — обратный перевод ограничений. Конкретно, мы берем высококачественные пары инструкций-ответов из существующих наборов данных и используем только продвинутые LLM для добавления сложных ограничений, которые уже выполняются ответами, что естественным образом снижает затраты и шум данных. В экспериментах мы использовали модель Llama3-70B-Instruct для обратного перевода ограничений и создали высококачественный набор данных сложных инструкций-ответов, названный CRAB. Мы показываем, что постобучение на CRAB улучшает способность различных базовых LLM следовать сложным инструкциям, что было оценено на обширных бенчмарках следования инструкциям. Мы также обнаружили, что обратный перевод ограничений служит полезной вспомогательной целью обучения в процессе постобучения. Наш код, данные и модели будут опубликованы для содействия будущим исследованиям.