Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "alignment"

RAG-RewardBench: Оценка моделей вознаграждения в контексте генерации с использованием дополненной выборки

Несмотря на значительный прогресс, достигнутый существующими языковыми моделями с дополненной извлечением (RALMs) в обеспечении надежных ответов и оснований на надежных источниках, они часто упускают из виду эффективное согласование с предпочтениями человека. В процессе согласования модели вознаграждения (RMs) выступают в качестве важного прокси для человеческих ценностей, чтобы направлять оптимизацию. Однако до сих пор неясно, как оценить и выбрать надежную RM для согласования предпочтений в RALMs. В этой связи мы предлагаем RAG-RewardBench, первую оценочную таблицу для оценки RMs в условиях RAG. Сначала мы разрабатываем четыре ключевых и сложных сценария, специфичных для RAG, для оценки RMs, включая многоступенчатое рассуждение, детальную цитату, соответствующее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть извлекателей и 24 RALMs, чтобы увеличить разнообразие источников данных. Наконец, мы используем подход LLM-as-a-judge для повышения эффективности и результативности аннотирования предпочтений, демонстрируя сильную корреляцию с аннотациями человека. На основе RAG-RewardBench мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также обнаруживаем, что уже обученные RALMs почти не показывают улучшения в согласовании предпочтений, подчеркивая необходимость перехода к обучению, основанному на предпочтениях. Мы публикуем нашу оценочную таблицу и код в открытом доступе по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих исследований.

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

Мультимодальная генерация музыки с явными мостами и дополнением извлечения

Мультимодальная генерация музыки направлена на создание музыки на основе различных входных модальностей, включая текст, видео и изображения. Существующие методы используют общее пространство встраивания для мультимодального слияния. Несмотря на их эффективность в других модальностях, применение этих методов в мультимодальной генерации музыки сталкивается с проблемами нехватки данных, слабой кросс-модальной синхронизации и ограниченной управляемости. В данной работе рассматриваются эти проблемы с помощью явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод, названный Мост Музыки и Визуальных Образов (VMB). В частности, Модель Мультимодального Описания Музыки преобразует визуальные входные данные в подробные текстовые описания, чтобы создать текстовый мост; Модуль Двухпоточной Поиска Музыки сочетает широкие и целевые стратегии поиска, чтобы создать музыкальный мост и обеспечить пользовательское управление. Наконец, мы разрабатываем структуру Явно Условной Генерации Музыки для генерации музыки на основе двух мостов. Мы проводим эксперименты по задачам генерации музыки из видео, изображений, текста и контролируемой генерации музыки, а также эксперименты на управляемостью. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и соответствие настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с приложениями в различных мультимедийных областях. Демонстрации и код доступны по адресу https://github.com/wbs2788/VMB.

SmolTulu: Оптимизация Обучения Языковых Моделей через Соотношение Темпа Обучения и Размеров Пакетов

Мы представляем SmolTulu-1.7b-Instruct, упомянутый в этом отчете как SmolTulu-DPO-1130, языковую модель, откалиброванную на инструкции, которая адаптирует постобучение Tulu 3 от AllenAI для улучшения базовой модели Huggingface SmolLM2-1.7B. Путем комплексного эмпирического анализа с использованием модели на 135M параметров мы демонстрируем, что связь между скоростью обучения и размером батча значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи на рассуждение, такие как ARC и GSM8K, выигрывают от более высоких соотношений скорости обучения к размеру батча, в то время как задачи распознавания шаблонов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими соотношениями. Эти идеи легли в основу разработки SmolTulu, которая достигает передовой производительности среди моделей с менее чем 2B параметров в отслеживании инструкций, набирая 67.7% на IFEval (Delta11%), и математическом рассуждении с 51.6% на GSM8K (Delta3.4%), с альтернативной версией, набирающей 57.1% на ARC (Delta5.4%). Мы публикуем нашу модель, рецепты обучения и абляционные исследования для содействия дальнейшим исследованиям в области эффективного согласования моделей, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и крупными языковыми моделями.

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.

Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Политики визуомоторных роботов, все более предобученные на больших наборах данных, обещают значительные достижения в различных областях робототехники. Однако согласование этих политик с предпочтениями конечных пользователей остается проблемой, особенно когда предпочтения трудно указать. Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало преобладающим механизмом для согласования в не-облаченных областях, таких как большие языковые модели, оно не достигло такого же успеха в согласовании визуомоторных политик из-за колоссального объема обратной связи от людей, необходимого для изучения визуальных функций награды. Чтобы решить эту проблему, мы предлагаем Обучение на основе предпочтений, выровненных по представлению (RAPL), метод, основанный только на наблюдениях, для обучения визуальным наградам, используя значительно меньше обратной связи от человеческих предпочтений. В отличие от традиционного RLHF, RAPL сосредоточивает обратную связь от людей на дообучении предобученных визуальных энкодеров для согласования с визуальным представлением конечного пользователя, а затем строит плотную визуальную награду через сопоставление признаков в этом согласованном пространстве представлений. Сначала мы валидируем RAPL через симуляционные эксперименты в бенчмарке X-Magical и манипуляции с роботом Franka Panda, демонстрируя, что он может учить награды, согласованные с человеческими предпочтениями, более эффективно использует данные предпочтений и обобщает на различных воплощениях роботов. Наконец, наши аппаратные эксперименты согласовывают предобученные Политики диффузии для трех задач манипуляции объектами. Мы обнаружили, что RAPL может дообучать эти политики, используя в 5 раз меньше реальных данных о предпочтениях людей, делая первый шаг к минимизации требований к человеческой обратной связи при максимизации согласования политик визуомоторного робота.

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

LiFT: Использование человеческой обратной связи для выравнивания моделей текст-видео

Недавние достижения в генеративных моделях преобразования текста в видео (T2V) продемонстрировали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видео с человеческими предпочтениями (например, точного отражения текстовых описаний), что особенно трудно решить, поскольку человеческие предпочтения по своей природе субъективны и сложно формализуемы как объективные функции. Поэтому в статье предлагается метод тонкой настройки LiFT, использующий человеческую обратную связь для согласования моделей T2V. Конкретно, мы сначала создаем набор данных аннотации человеческой оценки, LiFT-HRA, состоящий из примерно 10 000 аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческой оценки, измеряя согласование между данными видео и ожиданиями человека. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V, максимизируя взвешенную по вознаграждению вероятность. В качестве примера мы применяем наш конвейер к CogVideoX-2B, показывая, что тонко настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал человеческой обратной связи в улучшении согласования и качества синтезированных видео.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

Оптимизация предпочтений с весами для имплицитной слияния моделей

Хотя слияние гетерогенных открытых LLM с различной архитектурой и размерами может потенциально интегрировать сильные стороны различных моделей, существующие методы слияния сталкиваются со значительными проблемами, такими как выравнивание словаря и объединение матриц распределения. Эти процессы не только сложны, но также подвержены высоким рискам возникновения шума и ошибок. В этой работе мы предлагаем неявный метод слияния, оптимизацию предпочтений с взвешенными наградами (WRPO), который использует оптимизацию предпочтений между исходными LLM и целевым LLM для эффективной передачи их возможностей. WRPO исключает необходимость в выравнивании словаря и слиянии матриц и может быть эффективно масштабирован для различных LLM. Для учета распределительных отклонений между исходными и целевыми LLM WRPO вводит прогрессивную стратегию адаптации, которая постепенно смещает зависимость от предпочтительных примеров от целевого LLM к исходным LLM. Обширные эксперименты на бенчмарках MT-Bench, AlpacaEval-2 и Arena-Hard демонстрируют, что WRPO последовательно превосходит существующие методы слияния знаний и различные базовые линии дообучения. При применении к LLaMA3-8B-Instruct в качестве целевой модели, WRPO достигает прироста в контролируемой длине на уровне 55.9% против GPT-4-Preview-1106 на AlpacaEval-2 и выигрыша в 46.2% против GPT-4-0314 на Arena-Hard. Наш код доступен по адресу https://github.com/SLIT-AI/WRPO.

VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

Обнаружение видеогармонии и извлечение моментов (HD/MR) имеют важное значение в анализе видео. Недавние модели предсказания, основанные на трансформерах, часто упускают из виду динамику между задачами и согласование и уточнение видео и текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальным показателям в захвате взаимозависимости между видео и текстовыми модальностями. Хотя большие языковые и языковые-видевые модели (LLM/LVLMs) стали более заметными в различных областях, их применение в этой области остаётся относительно недостаточно исследованным. Мы предлагаем VideoLights, новую HD/MR платформу, которая решает эти ограничения через (i) полноразмерные модули проекции и уточнения функций с потерей согласования для лучшего согласования видео-текстовых функций, (ii) двунаправленную сеть кросс-модального слияния для сильно связанного запроса с учетом представлений клипов, и (iii) однонаправленный механизм обратной связи для совместных задач, который усиливает обе задачи через корреляцию. В дополнение к этому, (iv) мы вводим жёсткие положительные/отрицательные потери для адаптивного штрафования ошибок и улучшенного обучения, и (v) используем LVLMs, такие как BLIP-2, для улучшенной мультимодальной интеграции функций и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLMs. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют состояние на индексе состояния. Код и модели доступны на https://github.com/dpaul06/VideoLights.

Важность Критических Токенов: Как Контрастная Оценка на Уровне Токенов Улучшает Способности Рассуждения LLM

Большие языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах логического вывода. Они используют автогенерацию токенов для построения логических траекторий, что позволяет развивать связную цепь мысли. В данной работе мы исследуем влияние отдельных токенов на конечные результаты логических задач. Мы выявляем существование "критических токенов", которые приводят к неправильным логическим траекториям в LLM. В частности, мы обнаруживаем, что LLM склонны давать положительные результаты, когда их заставляют декодировать другие токены вместо критических токенов. Вдохновленные этим наблюдением, мы предлагаем новый подход - cDPO, предназначенный для автоматического распознавания и проведения вознаграждений на уровне токенов для критических токенов во время процесса согласования. В частности, мы разрабатываем подход к контрастивной оценке для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для достижения этой цели мы отдельно дообучаем положительные и отрицательные модели на различных логических траекториях, в результате чего они способны выявлять критические токены внутри неправильных траекторий, которые способствуют ошибочным результатам. Более того, чтобы дополнительно согласовать модель с информацией о критических токенах во время процесса согласования, мы расширяем обычные алгоритмы DPO до DPO на уровне токенов и используем дифференциальную вероятность от вышеупомянутых положительных и отрицательных моделей в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на базах данных GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.

VLSBench: Понимание визуальных утечек в многомодальной безопасности

Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

DreamCache: Легковесная и персонализированная генерация изображений без дообучения

Персонализированная генерация изображений требует моделей генерации текстов в изображения, которые захватывают основные характеристики объекта-референса, позволяя контролируемую генерацию в разных контекстах. Существующие методы сталкиваются с проблемами из-за сложных требований к обучению, высоких затрат на вывод, ограниченной гибкости или комбинации этих проблем. В этой статье мы представляем DreamCache, масштабируемый подход к эффективной и качественной персонализированной генерации изображений. Кэшируя небольшое количество характеристик изображений-референсов из подмножества слоев и одного временного шага предварительно обученного шумоподавляющего диффузора, DreamCache позволяет динамически модулировать характеристики сгенерированного изображения с помощью легких, обученных кондиционирующих адаптеров. DreamCache достигает современного уровня согласования изображений и текста, используя на порядок меньше дополнительных параметров и является как более вычислительно эффективным, так и универсальным, чем существующие модели.

MolReFlect: В поисках точных соответствий между молекулами и текстами

Открытие молекул является ключевой областью исследований, влияющей на все, начиная от лекарств, которые мы принимаем, до материалов, которые мы используем. В последнее время Большие Языковые Модели (LLMs) широко используются для понимания и генерации молекул, однако согласование между молекулами и их соответствующими подписями остается значительным вызовом. Ранние попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, упуская из виду детальные соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые критически важны для точных и объяснимых прогнозов. В данном случае, мы представляем MolReFlect, новую учитель-ученик схему, разработанную для контекстного выполнения молекулярно-описательных соответствий на тонком уровне. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий путем прямого извлечения ключевых фраз из подписей молекул или строк SMILES и их сопоставления с соответствующими подструктурами или характеристиками. Для уточнения этих соответствий мы предлагаем Избирательное Отражение в Контексте, которое извлекает предыдущие результаты извлечения в качестве контекстных примеров для учительской LLM для отражения, и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. В заключение, мы улучшаем процесс обучения ученической LLM через Настройку Молекул в Контексте Цепи Мысли, интегрируя тонкие соответствия и процессы рассуждений в формате Цепи Мысли. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, таким как Mistral-7B, значительно превзойти предыдущие базовые показатели, достигая передовых результатов на датасете ChEBI-20. Это достижение не только улучшает генеративные способности LLM в задаче перевода молекула-подпись, но и способствует созданию более объяснимой системы.

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео, которые не соответствуют текстовым запросам, особенно когда запросы описывают сложные сцены с множеством объектов и атрибутов. Чтобы решить эту проблему, мы представляем VideoRepair — новую модельно-независимую, не требующую обучения систему уточнения видео, которая автоматически выявляет тонкие несоответствия между текстом и видео и генерирует явную пространственную и текстовую обратную связь, позволяя модели T2V проводить целенаправленные, локализованные уточнения. VideoRepair состоит из четырех этапов: На (1) этапе оценки видео мы обнаруживаем несоответствия, генерируя детализированные оценочные вопросы и отвечая на них с помощью MLLM. На (2) этапе планирования уточнений мы идентифицируем правильно сгенерированные объекты и затем создаем локализованные запросы для уточнения других областей видео. Затем на (3) этапе разложения регионов мы сегментируем правильно сгенерированную область с помощью комбинированного модуля привязки. Мы регенерируем видео, корректируя несоответствующие регионы и сохраняя правильные области на (4) этапе локализованного уточнения. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench), VideoRepair значительно превосходит недавние базовые модели по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

Символическая Оптимизация Предпочтений с Демонстрациями (SymDPO): Усиление Контекстно-Ориентированного Обучения Мультимодальных Моделей

По мере того как языковые модели продолжают масштабироваться, крупные языковые модели (LLM) демонстрируют развивающиеся возможности в области обучения в контексте (ICL), что позволяет им решать языковые задачи, предваряя несколько демонстраций в контексте (ICDs) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки крупных мультимодальных моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с серьезной проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это свидетельствует о том, что LMM не достигают эффективного согласования между мультимодальными демонстрациями и выходными данными модели. Для решения этой проблемы мы предлагаем Оптимизацию прямого предпочтения демонстрации символами (SymDPO). Конкретно, SymDPO стремится нарушить традиционный подход к созданию мультимодальных демонстраций, заменяя текстовые ответы в примерах на случайные символы. Это заставляет модель внимательно анализировать изображения в демонстрациях и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы проверяем эффективность этого метода на нескольких тестовых наборах, демонстрируя, что с помощью SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать эти знания для лучшего ответа на вопросы.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

Выравнивание крупных языковых моделей: Инновационный подход с использованием ограничений на уровне признаков

Согласование больших языковых моделей (LLMs) с человеческими предпочтениями остается ключевым вызовом. Хотя посттренировочные техники, такие как Обучение с подкреплением от человеческой обратной связи (RLHF) и Оптимизация прямых предпочтений (DPO), достигли заметного успеха, они часто вводят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем Оптимизацию предпочтений на уровне признаков (FPO), новый метод, разработанный для упрощения процесса согласования при сохранении стабильности. FPO использует предобученные Разреженные Автокодировщики (SAEs) и вводит ограничения на уровне признаков, что позволяет проводить эффективное, вынужденное разрежением согласование. Наш подход отличается эффективностью за счет использования разреженных признаков, активированных в хорошо обученном разреженном автокодировщике, и качества последовательного дивергенции Кульбака-Лейблера с использованием оффлайн-референса на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения на 5.08% в проценте побед при значительно более низких вычислительных затратах по сравнению с лучшими на сегодняшний день базовыми моделями, что делает его перспективным решением для эффективного и контролируемого согласования LLM.

Введение в IOPO: Оптимизация предпочтений входа-выхода для улучшения следования инструкциям в LLM

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям является ключевой, поскольку всё больше агентов и приложений используют LLM для разработки, где сложность инструкций быстро возрастает. Однако, с одной стороны, существует ограниченное количество данных для оценки сложных инструкций; с другой стороны, нет специализированных алгоритмов для улучшения способности следовать сложным инструкциям. В этой связи данная статья представляет TRACE, эталон для улучшения и оценки способности следовать сложным инструкциям, который включает 120 тысяч обучающих данных и 1 тысячу данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Input-Output Preference Optimization), который учитывает пары предпочтений входных и выходных данных, где LLM не только быстро адаптируются к предпочтениям ответов, но и тщательно исследуют предпочтения инструкций. Многочисленные эксперименты на данных внутри домена и за его пределами подтверждают эффективность IOPO, показывая улучшения на 8.15% и 2.18% для данных внутри домена и 6.29% и 3.13% для данных за пределами домена по сравнению с SFT и DPO соответственно.

Ключевые кадры и маскирование Mamba для расширенного генерирования движений

Перевод на русский: Генерация движений человека является передовой областью исследований в генеративном компьютерном зрении с перспективными применениями в создании видео, разработке игр и манипуляциях робототехники. Недавно разработанная архитектура Mamba показывает многообещающие результаты в эффективном моделировании длинных и сложных последовательностей, однако остаются две значительные проблемы: Во-первых, непосредственное применение Mamba к расширенной генерации движений неэффективно, поскольку ограниченная емкость неявной памяти приводит к её затуханию. Во-вторых, Mamba испытывает трудности с мультимодальной интеграцией по сравнению с трансформерами и не соответствует текстовым запросам, часто путая направления (влево или вправо) или опуская части длинных текстовых запросов. Чтобы решить эти проблемы, наша статья предлагает три ключевых вклада: Во-первых, мы вводим KMM, новую архитектуру с моделированием маскирования ключевых кадров, разработанную для улучшения фокусировки Mamba на ключевых действиях в сегментах движения. Этот подход решает проблему затухания памяти и представляет собой пионерский метод в настройке стратегического маскирования на уровне кадров в системах моделирования последовательностей (SSM). Кроме того, мы разработали парадигму контрастивного обучения для решения проблемы мультимодальной интеграции в Mamba и улучшения согласованности движения с текстом. Наконец, мы провели обширные эксперименты на наборе данных go-to, BABEL, достигнув рекордных результатов с сокращением более чем на 57% в FID и на 70% параметров по сравнению с предыдущими методами, установившими стандарт качества. Смотрите сайт проекта: https://steve-zeyu-zhang.github.io/KMM

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

Эффективное выравнивание больших языковых моделей (LLM) с помощью активного исследования

Мы изучаем методы эффективного согласования больших языковых моделей (LLMs) с предпочтениями человека при учете ограниченного онлайн-обратной связи. Сначала мы формулируем проблему согласования LLM в рамках контекстных дуэльных бандитов. Эта формулировка охватывает недавние парадигмы, такие как онлайн RLHF и онлайн DPO, и по своей сути стремится к алгоритмам, которые эффективно используют выборку и включают активное онлайн-исследование. Опираясь на теорию бандитов, мы представляем унифицированный алгоритм на основе семплинга Томпсона и подчеркиваем его применение в двух различных сценариях согласования LLM. Практический агент, эффективно реализующий этот алгоритм, названный SEA (Sample-Efficient Alignment), был эмпирически подтвержден через обширные эксперименты на трех масштабах модели (1B, 2.8B, 6.9B) и трех алгоритмах обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокой эффективности согласования с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы выпускаем реализацию SEA вместе с эффективной кодовой базой, предназначенной для онлайн-согласования LLM, с целью ускорения будущих исследований в этой области.

SALSA: Укрепление Адаптации через Обучение с Обратной Связью от Человека

В разработке крупных языковых моделей (LLM) метод обучения с подкреплением от человеческой обратной связи (RLHF) играет ключевую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на расхождение Куллбэка-Лейблера (KL-дивергенцию) между текущей политикой и замороженной начальной политикой как на эталон, который добавляется в качестве штрафа в алгоритмы оптимизации политик, такие как Proximal Policy Optimization (PPO). Хотя это ограничение предотвращает слишком большое отклонение моделей от начальной точки, оно ограничивает исследование ландшафта вознаграждений, снижая способность модели находить решения более высокого качества. В результате оптимизация политики часто застревает в узком регионе пространства параметров, что приводит к субоптимальному согласованию и производительности. В данной статье представлен SALSA (Soup-based Alignment Learning for Stronger Adaptation) - новый подход, разработанный для преодоления этих ограничений путем создания более гибкого и точно расположенного эталонного модели через усреднение весов двух независимых моделей, обученных на надзорных данных (SFT). Этот "суп" моделей позволяет увеличить отклонение в KL-дивергенции и исследовать перспективные области пространства решений без потери стабильности. Используя эту более надежную эталонную модель, SALSA способствует лучшему исследованию, достигает более высоких наград и улучшает устойчивость модели, обобщающую способность за пределами распределения и производительность. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным тестам (MT-Bench, Arena-Hard, UltraFeedback), где она последовательно превосходит PPO, способствуя более глубокому исследованию и достигая превосходного согласования в LLM.