Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Гибкая методология разработки защитных механизмов для крупных языковых моделей: применение к обнаружению офф-топик запросов

Крупные языковые модели склонны к нецелевому использованию, когда пользователи могут побуждать эти модели выполнять задачи, выходящие за рамки их предназначения. Текущие ограничительные механизмы, которые часто опираются на курированные примеры или специализированные классификаторы, страдают от высокого уровня ложноположительных срабатываний, ограниченной адаптации и нецелесообразности требования реальных данных, которые недоступны на стадии предварительного производства. В данной статье мы представляем гибкую методологию разработки ограничительных механизмов без использования данных, которая решает эти проблемы. Определяя проблемное пространство качественно и передавая эту информацию в языковую модель для генерации разнообразных запросов, мы создаем синтетический набор данных для тестирования и обучения ограничительных механизмов, которые превосходят эвристические подходы. Кроме того, формулируя задачу как классификацию релевантности пользовательского запроса относительно системного запроса, наши ограничительные механизмы эффективно обобщают на другие категории нецелевого использования, включая взлом системы и вредоносные запросы. Наконец, мы вносим вклад в эту область, предоставляя в открытый доступ как синтетический набор данных, так и модели ограничительных механизмов, предоставляя ценные ресурсы для разработки ограничительных механизмов в предварительно-производственных средах и поддерживая дальнейшие исследования и разработки в области безопасности LLM.

Облачная сегментация с использованием Vision Foundation Models: Инновационный подход Cloud-Adapter

Сегментация облаков является критически важной задачей в интерпретации изображений дистанционного зондирования, поскольку точность этой задачи напрямую влияет на эффективность последующей обработки и анализа данных. Недавно модели основы визуального восприятия (VFM) продемонстрировали мощные способности к обобщению в различных визуальных задачах. В этой статье мы представляем адаптивный подход с эффективным использованием параметров, который называется Cloud-Adapter, предназначенный для повышения точности и устойчивости сегментации облаков. Наш метод использует предварительно обученную на общедоступных данных VFM, которая остается неизменной, что устраняет необходимость в дополнительном обучении. Cloud-Adapter включает легковесный модуль пространственного восприятия, который первоначально использует сверточную нейронную сеть (ConvNet) для извлечения плотных пространственных представлений. Эти многомасштабные характеристики затем агрегируются и служат контекстными входными данными для адаптирующего модуля, который модулирует замороженные трансформерные слои внутри VFM. Экспериментальные результаты показывают, что подход Cloud-Adapter, использующий только 0.6% обучаемых параметров замороженного базового уровня, достигает значительных улучшений в производительности. Cloud-Adapter последовательно достигает передовых результатов (SOTA) на широком спектре наборов данных для сегментации облаков из различных спутниковых источников, серий датчиков, уровней обработки данных, сценариев покрытия земли и гранулярности аннотаций. Мы опубликовали исходный код и предварительно обученные модели по адресу https://github.com/XavierJiezou/Cloud-Adapter для поддержки дальнейших исследований.

BALROG: Оценка агентных возможностей LLM и VLM на играх

Крупные языковые модели (LLMs) и модели языка с визуальными элементами (VLMs) обладают обширными знаниями и демонстрируют многообещающие способности к рассуждению; однако, они всё ещё испытывают трудности в эффективной работе в сложных, динамичных средах. Реальные задачи требуют обработки сложных взаимодействий, продвинутого пространственного рассуждения, долгосрочного планирования и непрерывного исследования новых стратегий - областей, в которых у нас нет эффективных методик для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы представляем BALROG, новую эталонную платформу, разработанную для оценки агентских способностей LLMs и VLMs через разнообразный набор сложных игр. Наш бенчмарк включает в себя ряд существующих сред для обучения с подкреплением с различным уровнем сложности, от задач, которые могут быть решены неспециалистами за секунды, до крайне сложных, которые могут потребовать лет для освоения (например, среда обучения NetHack). Мы разработали детальные метрики для измерения производительности и провели обширную оценку нескольких популярных открытых и закрытых LLMs и VLMs. Наши выводы показывают, что, хотя текущие модели достигают частичного успеха в более простых играх, они значительно отстают в решении более сложных задач. Особенно заметны серьезные недостатки в принятии решений на основе визуальной информации, поскольку модели показывают худшие результаты, когда предоставляются визуальные представления среды. Мы выпускаем BALROG как открытую и удобную для пользователя эталонную платформу, чтобы способствовать дальнейшим исследованиям и разработкам в сообществе агентских систем.

Инновационный метод экстраполяции видов с использованием предварительных данных видеодиффузии

Поле синтеза новых видов сделало значительные шаги вперед благодаря развитию методов полей яркости. Однако большинство техник полей яркости гораздо лучше справляются с интерполяцией новых видов, чем с экстраполяцией, где синтезируемые новые виды значительно отличаются от наблюдаемых тренировочных видов. Мы разработали ViewExtrapolator, подход к синтезу новых видов, который использует генеративные приоритеты стабильной видеодиффузии (SVD) для реалистичной экстраполяции новых видов. Переработав процесс удаления шума SVD, ViewExtrapolator улучшает качество видов, подверженных артефактам, которые отображаются полями яркости, значительно повышая ясность и реализм синтезированных новых видов. ViewExtrapolator является универсальным экстраполятором новых видов, который может работать с различными типами 3D-рендеринга, такими как виды, отображаемые из облаков точек, когда доступен только один вид или монокулярное видео. Кроме того, ViewExtrapolator не требует тонкой настройки SVD, что делает его эффективным по данным и вычислениям. Обширные эксперименты демонстрируют превосходство ViewExtrapolator в экстраполяции новых видов. Страница проекта: https://kunhao-liu.github.io/ViewExtrapolator/.

Введение в MyTimeMachine: Персонализированная трансформация возраста лица

Стареющее лицо - это сложный процесс, который в значительной степени зависит от множества факторов, таких как пол, этническая принадлежность, образ жизни и т.д., что делает крайне трудным изучение глобальных предшествующих возрастных изменений для точного прогнозирования старения для любого индивида. Существующие методики часто дают реалистичные и правдоподобные результаты старения, но изображения, подвергнутые старению, часто не соответствуют внешнему виду человека в целевом возрасте, и поэтому требуют персонализации. Во многих практических приложениях виртуального старения, например, в спецэффектах для фильмов и телешоу, доступ к личной фотоколлекции пользователя, отражающей процесс старения в небольшом временном интервале (20-40 лет), обычно имеется. Однако наивные попытки персонализировать глобальные техники старения на личных фотоальбомах часто терпят неудачу. Таким образом, мы предлагаем MyTimeMachine (MyTM), который сочетает в себе глобальные предшествующие возрастные изменения с личной фотоколлекцией (используя всего 50 изображений) для изучения персонализированной трансформации возраста. Мы представляем новую Адаптерную Сеть, которая объединяет персонализированные черты старения с глобальными чертами и генерирует изображение с измененным возрастом с помощью StyleGAN2. Мы также вводим три функции потерь для персонализации Адаптерной Сети с персонализированной потерей старения, регуляризацией экстраполяции и адаптивной регуляризацией w-нормы. Наш подход также может быть расширен на видео, обеспечивая высококачественные, сохраняющие идентичность и временно согласованные эффекты старения, которые соответствуют реальному внешнему виду в целевые возраста, демонстрируя свое превосходство над современными методами.

Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одно из перспективных направлений - разработка токенизатора, способного кодировать длинные видеофрагменты, что позволило бы токенизатору лучше использовать временную когерентность видео для токенизации. Однако, обучение существующих токенизаторов на длинных видео часто влечет за собой огромные затраты на обучение, так как они обучены на восстановлении всех кадров одновременно. В данной статье мы представляем CoordTok, токенизатор видео, который учится преобразовывать представления на основе координат в соответствующие патчи входных видео, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в фрагментированные трехплоскостные представления и восстанавливает патчи, соответствующие случайно выбранным координатам (x,y,t). Это позволяет обучать большие модели токенизаторов непосредственно на длинных видео без необходимости в чрезмерных ресурсах для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов, необходимых для кодирования длинных видеофрагментов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128x128 в 1280 токенов, тогда как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества восстановления. Мы также показываем, что такая эффективная токенизация видео позволяет проводить обучение диффузионного трансформера, который может генерировать 128 кадров одновременно, экономя память.

Стильные решения: SNR-сэмплер для генерации изображений с учетом стиля

Современные крупномасштабные диффузионные модели создают высококачественные изображения, но сталкиваются с трудностями при обучении новым, индивидуализированным художественным стилям, что ограничивает создание уникальных стилевых шаблонов. Наиболее перспективным подходом является тонкая настройка с использованием референсных изображений, однако часто это делается слепо, применяя те же цели и распределения уровней шума, что и при предварительном обучении, что приводит к неоптимальному соответствию стилю. Мы предлагаем новый метод - "самплер SNR, дружественный к стилю", который агрессивно смещает распределение отношения сигнал-шум (SNR) в сторону более высоких уровней шума во время тонкой настройки, фокусируясь на уровнях шума, где проявляются стилистические особенности. Это позволяет моделям лучше захватывать уникальные стили и генерировать изображения с более высокой стилевой согласованностью. Наш метод позволяет диффузионным моделям учиться и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы демонстрируем возможность создания стилей, таких как персональные акварельные картины, минималистичные плоские мультфильмы, 3D-визуализации, многопанельные изображения и мемы с текстом, тем самым расширяя диапазон генерации, основанной на стиле.

VideoEspresso: Разработка и применение большого набора данных для видеоанализа с использованием цепочки мыслей

Прогресс в области крупномасштабных моделей языков зрения (LVLMs) значительно улучшил понимание мультимодальных данных, однако задачи по рассуждению на основе видео по-прежнему сталкиваются с трудностями из-за недостатка качественных, масштабных датасетов. Существующие наборы данных для вопросно-ответных систем на видео (VideoQA) часто зависят от дорогостоящих ручных аннотаций с недостаточной детализацией или от автоматических методов построения с избыточным анализом кадр за кадром, что ограничивает их масштабируемость и эффективность для сложных рассуждений. Чтобы решить эти проблемы, мы представляем VideoEspresso, новый датасет, который включает пары VideoQA, сохраняющие ключевые пространственные детали и временную последовательность, а также мультимодальные аннотации промежуточных шагов рассуждения. Наша конвейерная линия построения использует метод, ориентированный на семантику, для снижения избыточности, после чего генерируются пары ВО с помощью GPT-4o. Мы также развиваем аннотации видеосвязей мыслей (CoT) для обогащения процессов рассуждения, направляя GPT-4o на извлечение логических связей из пар ВО и содержимого видео. Для использования потенциала высококачественных пар VideoQA, мы предлагаем фреймворк сотрудничества гибридных LVLMs, включающий в себя селектор кадров и двухэтапную инструкцию, настроенную на рассуждения LVLM. Этот фреймворк адаптивно выбирает ключевые кадры и выполняет рассуждения по методу CoT с использованием мультимодальных доказательств. Оцененный на нашем предложенном бенчмарке с 14 задачами против 9 популярных LVLMs, наш метод превосходит существующие базовые модели по большинству задач, демонстрируя превосходные возможности рассуждений по видео. Наш код и датасет будут опубликованы по адресу: https://github.com/hshjerry/VideoEspresso.

Интерпретация больших мультимодальных моделей: Разбор и управление внутренними представлениями

Недавние достижения в области крупных мультимодальных моделей (LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Возникает вопрос, как мы, как люди, можем понять их внутренние нейронные представления. В данной статье делается первый шаг к ответу на этот вопрос путем представления универсальной структуры для идентификации и интерпретации семантики внутри LMMs. В частности: 1) Сначала мы применяем разреженный автоэнкодер (SAE) для разделения представлений на понятные человеку характеристики. 2) Затем мы представляем автоматическую систему интерпретации для понимания открытых семантических характеристик, изученных SAE самими LMMs. Мы используем эту систему для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти характеристики могут эффективно направлять поведение модели. Наши результаты способствуют более глубокому пониманию того, почему LMMs превосходят в выполнении определенных задач, включая тесты на эмоциональный интеллект, и освещают природу их ошибок, а также потенциальные стратегии их исправления. Эти открытия предоставляют новые взгляды на внутренние механизмы LMMs и предполагают параллели с когнитивными процессами человеческого мозга.

One to Rule Them All: Natural Language to Bind, Communication, Perception, and Action

В последние годы исследования в области взаимодействия человека и робота сосредоточены на разработке роботов, способных понимать сложные инструкции человека и выполнять задачи в динамичных и разнообразных условиях. Эти системы имеют широкий спектр применений, от личной помощи до промышленной робототехники, подчеркивая важность гибкого, естественного и безопасного взаимодействия роботов с людьми. В данной статье представлена усовершенствованная архитектура для планирования действий робота, которая интегрирует коммуникацию, восприятие и планирование с использованием крупных языковых моделей (LLM). Наша система разработана для перевода команд, выраженных на естественном языке, в исполняемые действия робота, учитывая информацию об окружающей среде и динамически обновляя планы на основе реального времени обратной связи. Модуль планировщика является ядром системы, где встроенные в модифицированную структуру ReAct LLM используются для интерпретации и выполнения команд пользователя. Используя их обширные предварительно обученные знания, LLM могут эффективно обрабатывать запросы пользователей без необходимости введения новых знаний о меняющейся среде. Модифицированная структура ReAct дополнительно расширяет пространство исполнения, предоставляя восприятие окружающей среды в реальном времени и результаты физических действий. Сочетая прочные и динамичные семантические карты в виде графов с элементами управления и объяснениями сбоев, эта архитектура повышает адаптивность робота, выполнение задач и бесшовное сотрудничество с человеческими пользователями в общих и динамичных средах. Благодаря интеграции непрерывных обратных связей с окружающей средой система может динамически адаптировать план, чтобы учесть неожиданные изменения, оптимизируя способность робота выполнять задачи. Используя набор данных предыдущего опыта, можно предоставить подробную обратную связь о неудачах. Обновление контекста LLM на следующей итерации с предложениями о том, как преодолеть проблему, также возможно.

ОминиКонтроль: Минимальный и универсальный контроль для модели Diffusion Transformer

В данной статье мы представляем OminiControl, универсальную и параметрически-эффективную систему, которая интегрирует условия изображения в предварительно обученные модели Diffusion Transformer (DiT). В основе OminiControl лежит механизм повторного использования параметров, что позволяет DiT кодировать условия изображения, используя себя в качестве мощной основы и обрабатывать их с помощью гибких многоуровневых процессоров внимания. В отличие от существующих методов, которые сильно зависят от дополнительных модулей энкодера с сложными архитектурами, OminiControl (1) эффективно и с высокой производительностью включает инжектированные условия изображения, используя всего ~0.1% дополнительных параметров, и (2) охватывает широкий спектр задач условного генераирования изображений единообразным способом, включая генерацию на основе субъекта и пространственно выровненные условия, такие как края, глубина и прочее. Примечательно, что эти возможности достигаются путем обучения на изображениях, сгенерированных самим DiT, что особенно полезно для генерации, управляемой субъектом. Расширенные оценки показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные DiT как в генерации на основе субъекта, так и в пространственно-выровненной условной генерации. Кроме того, мы публикуем наш обучающий набор данных, Subjects200K, содержащий более 200,000 изображений с консистентной идентичностью, вместе с эффективным пайплайном синтеза данных для продвижения исследований в области генерации, согласованной по субъекту.

ВИДЕОРЕМОНТ: Улучшение генерации видео по тексту через оценку несоответствий и локализованное уточнение

Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео, которые не соответствуют текстовым запросам, особенно когда запросы описывают сложные сцены с множеством объектов и атрибутов. Чтобы решить эту проблему, мы представляем VideoRepair — новую модельно-независимую, не требующую обучения систему уточнения видео, которая автоматически выявляет тонкие несоответствия между текстом и видео и генерирует явную пространственную и текстовую обратную связь, позволяя модели T2V проводить целенаправленные, локализованные уточнения. VideoRepair состоит из четырех этапов: На (1) этапе оценки видео мы обнаруживаем несоответствия, генерируя детализированные оценочные вопросы и отвечая на них с помощью MLLM. На (2) этапе планирования уточнений мы идентифицируем правильно сгенерированные объекты и затем создаем локализованные запросы для уточнения других областей видео. Затем на (3) этапе разложения регионов мы сегментируем правильно сгенерированную область с помощью комбинированного модуля привязки. Мы регенерируем видео, корректируя несоответствующие регионы и сохраняя правильные области на (4) этапе локализованного уточнения. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench), VideoRepair значительно превосходит недавние базовые модели по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.

Обзор TÜLU 3: Продвижение границ в области открытых языковых моделей пост-обучения

Дополнительная подготовка языковых моделей применяется для уточнения поведения и открытия новых навыков в широком спектре современных языковых моделей, однако открытые рецепты для применения этих техник отстают от проприетарных. Исходные данные обучения и рецепты для постобучения одновременно являются наиболее важными частями головоломки и частью с наименьшей прозрачностью. Чтобы сократить этот разрыв, мы представляем T\"ULU 3, семейство полностью открытых моделей последнего поколения с постобучением, вместе с данными, кодом и рецептами обучения, что служит всеобъемлющим руководством по современным техникам постобучения. T\"ULU 3, основанный на базовых моделях Llama 3.1, демонстрирует результаты, превосходящие инструктивные версии Llama 3.1, Qwen 2.5, Mistral, а также закрытые модели, такие как GPT-4o-mini и Claude 3.5-Haiku. Алгоритмы обучения для наших моделей включают в себя контролируемую тонкую настройку (SFT), прямую оптимизацию предпочтений (DPO) и новый метод, который мы называем обучением с подтверждаемыми вознаграждениями (RLVR). С T\"ULU 3 мы вводим схему мультизадачной оценки для рецептов постобучения с разработкой и невидимыми оценками, стандартными реализациями бенчмарков и значительной очисткой существующих открытых наборов данных на этих бенчмарках. Мы заканчиваем анализом и обсуждением методов обучения, которые не всегда улучшали производительность. В дополнение к весам модели T\"ULU 3 и демонстрации, мы публикуем полный рецепт - включая наборы данных для различных ключевых навыков, мощный инструментарий для курирования и оценки данных, код обучения и инфраструктуру, и, что наиболее важно, подробный отчет для воспроизведения и дальнейшей адаптации подхода T\"ULU 3 к другим областям.

WildLMa: Долгосрочное локоманипуляционное обучение в реальных условиях

"Манипуляции мобильными роботами 'в дикой природе' стремятся развертывать роботов в разнообразных реальных условиях, что требует от робота: (1) обладать навыками, которые могут обобщаться на различные конфигурации объектов; (2) быть способным к выполнению задач с длительным горизонтом в различных средах; и (3) выполнять сложные манипуляции, выходящие за рамки простого захвата и перемещения. Четвероногие роботы с манипуляторами обещают расширить рабочее пространство и обеспечить надежную локомоцию, но существующие результаты не исследуют такие возможности. В данной статье предлагается WildLMa с тремя компонентами для решения этих проблем: (1) адаптация обученного низкоуровневого контроллера для телеоперации всего тела с использованием VR и проходимости; (2) WildLMa-Skill — библиотека обобщаемых визуомоторных навыков, полученных с помощью обучения по подражанию или эвристик; и (3) WildLMa-Planner — интерфейс для обученных навыков, позволяющий планировщикам на основе LLM координировать навыки для задач с длительным горизонтом. Мы демонстрируем важность высококачественных тренировочных данных, достигая более высокого уровня успеха в захвате объектов по сравнению с существующими базовыми методами RL, используя всего несколько десятков демонстраций. WildLMa использует CLIP для обучения по подражанию с условием языка, что эмпирически обобщается на объекты, не виденные в процессе обучения. Помимо обширной количественной оценки, мы качественно демонстрируем практические приложения роботов, такие как уборка мусора в университетских коридорах или на открытой местности, работа с подвижными объектами и перестановка предметов на книжной полке."