Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Согласование больших языковых моделей (LLMs) с человеческими предпочтениями остается ключевым вызовом. Хотя посттренировочные техники, такие как Обучение с подкреплением от человеческой обратной связи (RLHF) и Оптимизация прямых предпочтений (DPO), достигли заметного успеха, они часто вводят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем Оптимизацию предпочтений на уровне признаков (FPO), новый метод, разработанный для упрощения процесса согласования при сохранении стабильности. FPO использует предобученные Разреженные Автокодировщики (SAEs) и вводит ограничения на уровне признаков, что позволяет проводить эффективное, вынужденное разрежением согласование. Наш подход отличается эффективностью за счет использования разреженных признаков, активированных в хорошо обученном разреженном автокодировщике, и качества последовательного дивергенции Кульбака-Лейблера с использованием оффлайн-референса на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения на 5.08% в проценте побед при значительно более низких вычислительных затратах по сравнению с лучшими на сегодняшний день базовыми моделями, что делает его перспективным решением для эффективного и контролируемого согласования LLM.

Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, но все еще испытывают трудности с рассуждением на основе длинных контекстов. Существующие подходы обычно включают дообучение LLM с использованием синтетических данных, что зависит от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, тем самым ограничивая дальнейшее развитие. Чтобы решить эту проблему, мы исследуем потенциал LLM для самосовершенствования в рассуждении на основе длинных контекстов и предлагаем подход \ours, специально разработанный для этой цели. Этот подход прост: мы генерируем несколько ответов на каждый вопрос, оцениваем их с помощью метода минимального байесовского риска и затем применяем дообучение с учителем или оптимизацию предпочтений на основе этих ответов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность \ours, с абсолютным улучшением на 4.2 балла для Llama-3.1-8B-Instruct. Более того, \ours показывает превосходные результаты по сравнению с предыдущими подходами, которые зависят от данных, произведенных человеческими экспертами или продвинутыми моделями. Мы ожидаем, что эта работа откроет новые пути для техник самосовершенствования в сценариях с длинными контекстами, что необходимо для постоянного развития LLM.

Персеивер S: Мультимасштабный Персеивер с Эффективной Сегментацией для Долгосрочной Генерации Экспрессивной Символической Музыки

Генерация музыки значительно продвинулась вперед, особенно в области создания аудио. Однако создание символической музыки, которая одновременно была бы структурированной и выразительной, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Сегментация и Масштаб), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективной сегментации и механизмов внимания в нескольких масштабах. Наш подход улучшает генерацию символической музыки, одновременно изучая долгосрочные структурные зависимости и краткосрочные выразительные детали. Сочетая кросс-аттеншн и самовнимание в многомасштабном контексте, PerceiverS улавливает долговременную музыкальную структуру, сохраняя при этом нюансы исполнения. Предложенная модель, оцененная на таких датасетах, как Maestro, демонстрирует улучшения в создании когерентной и разнообразной музыки с структурной последовательностью и выразительными вариациями. Демонстрации проекта и образцы созданной музыки можно найти по ссылке: https://perceivers.github.io.

MVideo: Управление Движением для Улучшенной Генерации Видео Сложных Действий

Существующие модели преобразования текста в видео (T2V) часто сталкиваются с трудностями при генерации видео с достаточно выраженными или сложными действиями. Основное ограничение заключается в неспособности текстового запроса точно передать детали сложных движений. Чтобы решить эту проблему, мы предлагаем новую систему, MVideo, разработанную для создания видеороликов длительной продолжительности с точными и плавными действиями. MVideo преодолевает ограничения текстовых запросов, включая последовательности масок в качестве дополнительного входного условия для движения, что обеспечивает более ясное и точное представление желаемых действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, повышая тем самым эффективность и надежность. Наши результаты показывают, что после обучения MVideo эффективно согласует текстовые запросы с условиями движения, производя видео, которые одновременно удовлетворяют оба критерия. Этот механизм двойного контроля позволяет создавать более динамичные видеоролики, позволяя изменять либо текстовый запрос, либо условие движения независимо, либо оба одновременно. Кроме того, MVideo поддерживает редактирование и компоновку условий движения, что упрощает создание видеороликов со сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая высокий стандарт для улучшения изображения действий в современных моделях диффузии видео. Страница нашего проекта доступна по адресу https://mvideo-v1.github.io/.

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

Разложение и интерпретация векторов управления: Можно ли использовать разреженные автоэнкодеры?

Векторы управления являются перспективным методом для контроля поведения крупных языковых моделей. Однако их внутренние механизмы остаются плохо понятыми. Хотя разреженные автокодировщики (SAEs) могут предложить потенциальный способ интерпретации векторов управления, недавние исследования показывают, что векторы, реконструированные с помощью SAEs, часто лишены управляющих свойств оригинальных векторов. В данной статье исследуется, почему прямое применение SAEs к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления находятся вне распределения входных данных, для которых SAEs были разработаны, и (2) векторы управления могут иметь значимые отрицательные проекции в направлениях признаков, которые SAEs не предназначены учитывать. Эти ограничения препятствуют прямому использованию SAEs для интерпретации векторов управления.

CamemBERT 2.0: Эволюция французского языкового моделирования

Модели французского языка, такие как CamemBERT, были широко приняты в различных отраслях для задач обработки естественного языка (NLP), причем модели вроде CamemBERT имеют более 4 миллионов загрузок в месяц. Однако эти модели сталкиваются с вызовами из-за временного смещения концепций, когда устаревшие обучающие данные приводят к снижению производительности, особенно при встрече с новыми темами и терминологией. Этот вопрос подчеркивает необходимость обновления моделей, отражающих современные лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих проблем. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует задачу обнаружения замененных токенов (RTD) для улучшения понимания контекста, в то время как CamemBERTv2 построена на RoBERTa, которая использует задачу маскированного моделирования языка (MLM). Обе модели обучены на значительно большем и более актуальном наборе данных с удлиненной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общих задачах NLP, так и в специфических областях применения, таких как медицинские задачи, демонстрируя их универсальность и эффективность в различных случаях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны в открытом доступе на платформе Huggingface.