Ай Дайджест

Идентификация аппаратной и программной платформы для вывода модели

Теперь распространённой деловой практикой стало покупать доступ к выводу крупных языковых моделей (LLM) вместо самостоятельного хостинга из-за значительных начальных затрат на аппаратную инфраструктуру и энергопотребление. Однако, как покупатель, нет механизма для проверки подлинности рекламируемого сервиса, включая аппаратную платформу для обслуживания, например, что он действительно обслуживается с использованием NVIDIA H100. Кроме того, есть сообщения, предполагающие, что поставщики моделей могут предоставлять модели, немного отличающиеся от рекламируемых, часто для того, чтобы они могли работать на менее дорогом оборудовании. Таким образом, клиент платит премию за доступ к способной модели на более дорогом оборудовании, но в итоге обслуживается дешёвой (потенциально менее способной) моделью на более дешёвом оборудовании. В этой статье мы вводим понятие **вывод аппаратной и программной платформы (HSPI)** — метод для идентификации базовой архитектуры и программного стека (чёрного ящика) машинного обучения модели, основанный исключительно на её входно-выходном поведении. Наш метод использует врождённые различия различных архитектур и компиляторов для различения различных типов и программных стеков. Анализируя числовые паттерны в выводах модели, мы предлагаем классификационную рамку, способную точно идентифицировать используемую для вывода модели, а также базовую программную конфигурацию. Наши результаты демонстрируют возможность выведения типа из чёрных ящиков моделей. Мы оцениваем HSPI по моделям, обслуживаемым на различном реальном оборудовании, и находим, что в белом ящике мы можем различать между различными типами с точностью от 83.9% до 100%. Даже в чёрном ящике мы можем достигать результатов, которые в три раза выше точности случайного угадывания.

model inference hardware

Акустический объемный рендеринг для нейронных полей импульсных откликов

Реалистичный синтез звука, который точно отображает акустические явления, необходим для создания погружающих впечатлений в виртуальной и дополненной реальности. Синтез звука, получаемого в любой точке, зависит от оценки импульсной характеристики (IR), которая описывает, как звук распространяется в данной сцене по различным путям перед достижением позиции слушателя. В данной статье мы представляем Acoustic Volume Rendering (AVR), новый подход, который адаптирует методы объемного рендеринга для моделирования акустических импульсных характеристик. Хотя объемный рендеринг успешно использовался для моделирования полей излучения для изображений и нейронных представлений сцен, IR представляют уникальные вызовы как временные ряды сигналов. Чтобы справиться с этими вызовами, мы вводим рендеринг в частотной области и используем сферическую интеграцию для подгонки измерений IR. Наш метод создает поле импульсной характеристики, которое по своей природе кодирует принципы распространения волн и достигает передовых результатов в синтезе импульсных характеристик для новых положений. Эксперименты показывают, что AVR значительно превосходит текущие ведущие методы. Кроме того, мы разработали платформу акустического моделирования AcoustiX, которая обеспечивает более точные и реалистичные симуляции IR, чем существующие симуляторы. Код для AVR и AcoustiX доступен по адресу https://zitonglan.github.io/avr.

synthesis estimation rendering

Сильные модели не всегда лучшие учителя для настройки на инструкции

**Настройка инструкций широко используется для того, чтобы обеспечить эффективное выполнение инструкций пользователей большими языковыми моделями (LLM). Способности LLM к следованию инструкциям в значительной степени зависят от используемых для настройки наборов данных инструкций. Недавно появились синтетические наборы данных инструкций, которые представляют собой экономически выгодное решение для предоставления LLM разнообразных и качественных инструкций. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более эффективными учителями для настройки инструкций, и поэтому просто используют эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты с пятью базовыми моделями и двадцатью генераторами ответов показали, что более крупные и мощные модели не всегда являются лучшими учителями для более мелких моделей. Мы называем это явление парадоксом больших моделей. Мы наблюдаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и настраиваемыми базовыми моделями. Поэтому мы разработали новую метрику под названием Компенсируемое Совместимостью Вознаграждение (CAR), чтобы измерить эффективность генераторов ответов. Наши эксперименты с пятью базовыми моделями показывают, что CAR превосходит почти все базовые методы.**

tuning datasets synthetic

Введение в SAMPart3D: Сегментация любой части 3D объектов

Сегментация частей в 3D является важной и сложной задачей в области 3D восприятия, играющей ключевую роль в приложениях, таких как робототехника, создание 3D и редактирование 3D. Современные методы используют мощные модели распознавания языка и зрения (VLMs) для дистилляции знаний из 2D в 3D, достигая нулевого этапа сегментации частей в 3D. Однако эти методы ограничены зависимостью от текстовых запросов, что ограничивает их масштабируемость для работы с большими неразмеченными наборами данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую рамку для нулевого этапа сегментации частей 3D объектов, которая сегментирует любой 3D объект на семантические части с различной детализацией, не требуя предопределенных наборов меток частей в виде текстовых запросов. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции 3D извлечения признаков, что позволяет масштабировать на большие неразмеченные 3D наборы данных для изучения богатых 3D приоритетов. Для гибкости мы дистиллируем 3D признаки, зависящие от масштаба, осведомленные о частях, для сегментации частей 3D с различной детализацией. Получив сегментированные части из этих признаков, мы используем VLMs для присвоения семантических меток каждой части на основе мультивью рендеринга. В сравнении с предыдущими методами, наш SAMPart3D может масштабироваться на недавние крупномасштабные наборы данных 3D объектов, такие как Objaverse, и обрабатывать сложные, необычные объекты. Кроме того, мы вносим вклад в создание нового эталона для сегментации частей 3D, чтобы решить проблему недостатка разнообразия и сложности объектов и частей в существующих эталонах. Эксперименты показывают, что наш SAMPart3D значительно превосходит существующие методы нулевого этапа сегментации частей 3D и может способствовать различным приложениям, таким как редактирование на уровне частей и интерактивная сегментация.

segmentation distillation scalability

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

dataset vision language

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

framework model architecture

Введение в WaLa: Волновая Латентная Диффузия для 3D Генеративных Моделей

Большие трёхмерные генеративные модели требуют значительных вычислительных ресурсов, но часто не справляются с захватом мелких деталей и сложных геометрий при высоких разрешениях. Мы считаем, что эта ограниченность обусловлена неэффективностью текущих представлений, которые не обладают необходимой компактностью для эффективного моделирования генеративных моделей. Чтобы решить эту проблему, мы представляем новый подход под названием Вейвлетное Латентное Диффузионное Моделирование (WaLa), который кодирует 3D формы в компактные латентные представления на основе вейвлетов. В частности, мы сжимаем поле подписанных расстояний размером 256^3 в латентную сетку размером 12^3 умноженное на 4, достигая впечатляющего коэффициента сжатия 2427 с минимальной потерей детализации. Этот высокий уровень сжатия позволяет нашему методу эффективно обучать крупномасштабные генеративные сети без увеличения времени вывода. Наши модели, как условные, так и безусловные, содержат примерно миллиард параметров и успешно генерируют высококачественные 3D формы с разрешением 256^3. Более того, WaLa обеспечивает быстрое выведение результатов, создавая формы за два-четыре секунды в зависимости от условий, несмотря на масштаб модели. Мы демонстрируем лучшие в своем классе результаты на нескольких наборах данных, с значительными улучшениями в качестве, разнообразии и вычислительной эффективности генерации. Мы открываем исходный код и, насколько нам известно, выпускаем крупнейшие предобученные 3D генеративные модели для различных модальностей.

compression diffusion latent

Масштабирование свойств диффузионных моделей для перцептивных задач

В данной статье мы утверждаем, что итеративные вычисления с использованием моделей диффузии предлагают мощный подход не только для генерации, но и для задач зрительного восприятия. Мы объединяем такие задачи, как оценка глубины, оптический поток и сегментация, в рамках перевода изображение-к-изображению, и показываем, как модели диффузии выигрывают от масштабирования вычислительных ресурсов на этапах обучения и тестирования для этих задач восприятия. Через тщательный анализ этих масштабируемых поведений, мы представляем различные техники для эффективного обучения моделей диффузии для задач зрительного восприятия. Наши модели достигают улучшенных или сопоставимых результатов по сравнению с передовыми методами, используя значительно меньше данных и вычислительных ресурсов. Для использования нашего кода и моделей, посетите https://scaling-diffusion-perception.github.io.

diffusion perception scaling