Ай Дайджест - категория supervised

Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, но все еще испытывают трудности с рассуждением на основе длинных контекстов. Существующие подходы обычно включают дообучение LLM с использованием синтетических данных, что зависит от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, тем самым ограничивая дальнейшее развитие. Чтобы решить эту проблему, мы исследуем потенциал LLM для самосовершенствования в рассуждении на основе длинных контекстов и предлагаем подход \ours, специально разработанный для этой цели. Этот подход прост: мы генерируем несколько ответов на каждый вопрос, оцениваем их с помощью метода минимального байесовского риска и затем применяем дообучение с учителем или оптимизацию предпочтений на основе этих ответов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность \ours, с абсолютным улучшением на 4.2 балла для Llama-3.1-8B-Instruct. Более того, \ours показывает превосходные результаты по сравнению с предыдущими подходами, которые зависят от данных, произведенных человеческими экспертами или продвинутыми моделями. Мы ожидаем, что эта работа откроет новые пути для техник самосовершенствования в сценариях с длинными контекстами, что необходимо для постоянного развития LLM.

2024-11-14reasoning supervised synthetic

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

2024-11-08diffusion supervised fine-tuning

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.

2024-11-05alignment optimization benchmark