Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

S,A,M,E: Обучение универсальной визуальной навигации с языковым управлением с помощью адаптивной смеси экспертов

Академическая область обучения визуальной навигации, управляемой инструкциями, может быть в общем случае подразделена на навигацию, основанную на высокоуровневом поиске по категориям, и навигацию, основанную на языковых инструкциях низкого уровня, в зависимости от детализации языковых указаний, где первая акцентирует внимание на процессе исследования, в то время как вторая сосредотачивается на выполнении детализированных текстовых команд. Несмотря на различия в фокусе этих задач, основные требования к интерпретации инструкций, пониманию окружающей среды и выводу решений по действиям остаются неизменными. В данной статье мы объединяем различные задачи навигации в единую и общую структуру - мы исследуем основные трудности дележа общих знаний и использования специфических задачам возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основании языковых инструкций с различной детальностью и динамических наблюдений. С помощью SAME мы представляем универсального агента, способного одновременно решать семь задач навигации, который превосходит или достигает высоко сопоставимых результатов с узкоспециализированными агентами.

Physics-Informed Gaussians: A New Approach to Solving PDEs

Приближение уравнений в частных производных (УЧП) с использованием нейронных сетей достигло значительных успехов благодаря физически обоснованным нейронным сетям (PINN). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINN часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLP), которые с трудом учатся эффективно распознавать высокочастотные и нелинейные компоненты. В последнее время были исследованы параметрические меш-репрезентации в сочетании с нейронными сетями как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако они обычно требуют очень высокорастяжимых сеток и большого количества опорных точек для достижения высокой точности при избежании проблем перенапряжения. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точное приближение сложных УЧП. Чтобы преодолеть эти ограничения, мы предлагаем физически обоснованные гауссианы (PIG), которые комбинируют встраивание признаков с использованием гауссовых функций и легковесной нейронной сети. Наш подход использует обучаемые параметры для среднего значения и дисперсии каждого гауссиана, что позволяет динамически изменять их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально приближать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, которая используется в PINN, что позволяет нам получать преимущества от их отличных свойств. Экспериментальные результаты показывают конкурентоспособные характеристики нашей модели по различным УЧП, демонстрируя её потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/.

Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (NFs) являются моделями, основанными на вероятности, для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в оценке плотности, так и в задачах генеративного моделирования, но в последние годы получили относительно мало внимания. В этой работе мы демонстрируем, что NFs более мощные, чем считалось ранее. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант автогрессивных потоков с маскированием (MAFs), основанный на Transformer: он состоит из стека автогрессивных трансформерных блоков на изображениях, чередующих направление автогрессии между слоями. TarFlow легко обучать от начала до конца и он способен напрямую моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества образцов: увеличение гауссовского шума во время обучения, посттренировочную процедуру денойзинга и эффективный метод управления как для условий класса, так и для безусловных настроек. Совместив это, TarFlow устанавливает новые современные результаты в оценке вероятности для изображений, опережая предыдущие лучшие методы на значительную величину, и генерирует образцы с качеством и разнообразием, сопоставимыми с диффузионными моделями, впервые с помощью самостоятельной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

ONEBench: Новый Подход к Оценке Моделей Искусственного Интеллекта

Традиционные фиксированные наборы тестов недостаточны для оценки открытых возможностей базовых моделей. Чтобы решить эту проблему, мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новый парадигма тестирования, которая объединяет отдельные оценочные наборы данных в единый, постоянно расширяющийся пул образцов. ONEBench позволяет пользователям генерировать собственные, открытые оценочные критерии из этого пула, соответствующие конкретным интересующим возможностям. Объединяя образцы из различных тестовых наборов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки тех, которые охватываются оригинальными тестовыми наборами, одновременно смягчая переобучение и предвзятость набора данных. Самое важное, что он рассматривает оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задач-специфических тестов к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполнота. Гетерогенность относится к агрегированию по различным метрикам, в то время как неполнота описывает сравнение моделей, оцененных на разных поднаборах данных. Чтобы справиться с этими проблемами, мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки моделей. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотически восстанавливая истинные оценки) и быструю сходимость, позволяя точно ранжировать модели при меньшем количестве данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получены по средним оценкам. Мы также демонстрируем устойчивость к отсутствию ~95% измерений, позволяя снизить стоимость оценки до 20 раз с минимальными изменениями в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей языка и зрения, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов, чтобы постоянно развивать тесты вместе с быстро развивающимися базовыми моделями.

Мультимодальное латентное языковое моделирование с помощью диффузии следующего токена

Мультимодальные генеративные модели требуют единого подхода для обработки как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, аудио, видео). В этой работе мы предлагаем Моделирование Языка в Скрытом Пространстве (Latent Language Modeling, LatentLM), которое бесшовно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. В частности, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде скрытых векторов и вводим диффузию следующего токена для авторегрессионной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE, чтобы решить проблемы коллапса дисперсии, что имеет решающее значение для авторегрессионного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодальные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает положительных результатов по сравнению с Transfusion и векторизованными моделями в контексте увеличения токенов для обучения. В синтезе текста в речь LatentLM превосходит передовую модель VALL-E 2 по сходству с говорящим иrobustness, при этом требуя на 10 раз меньше шагов декодирования. Результаты подтверждают, что LatentLM является высокоэффективным и масштабируемым подходом для продвижения больших мультимодальных моделей.

VisionArena: Новая эра взаимодействия пользователей с моделями визуального языка

С растущим принятием и возможностями моделей зрения-языка (VLM) возникает необходимость в контрольных показателях, которые отражают аутентичные взаимодействия пользователей с VLM. В ответ мы создаем VisionArena, набор данных из 230K реальных разговоров между пользователями и VLM. Собранный на платформе Chatbot Arena - открытой платформе, где пользователи взаимодействуют с VLM и подают голосование за предпочтения - VisionArena охватывает 73K уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подсета: VisionArena-Chat, 200K одиночных и многоповоротных разговоров между пользователем и VLM; VisionArena-Battle, 30K разговоров, сравнивающих двух анонимных VLM с голосами предпочтений пользователей; и VisionArena-Bench, автоматическая оценка из 500 различных пользовательских запросов, которые эффективно приближаются к живым рейтингам моделей Chatbot Arena. Кроме того, мы подчеркиваем виды вопросов, задаваемых пользователями, влияние стиля ответов на предпочтения и области, где модели часто терпят неудачу. Мы обнаруживаем, что задачи с открытым окончанием, такие как создание подписей и юмор, сильно зависят от стиля, а текущие VLM испытывают трудности с пространственным мышлением и планированием задач. Наконец, мы показываем, что дообучение той же основной модели на VisionArena-Chat превосходит Llava-Instruct-158K, с увеличением на 17 пунктов в MMMU и на 46 пунктов в оценке WildVision. Набор данных доступен на https://huggingface.co/lmarena-ai.

E,u,c,l,i,d: Ускорение многомодальных LLM с помощью синтетических высококачественных визуальных описаний

Мультимодальные большие языковые модели (МЛЛМ) достиглиrapid прогресса за последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (НУВП) — особенно со способностью точно описывать геометрические детали изображения. Эта способность жизненно важна для приложений в таких областях, как робототехника, анализ медицинских изображений и производство. В этой статье мы сначала представляем Геовосприятие, эталонный показатель, предназначенный для оценки способности МЛЛМ точно транскрибировать 2D геометрическую информацию из изображения. Используя этот эталон, мы демонстрируем ограничения ведущих МЛЛМ, а затем проводим всестороннее эмпирическое исследование, чтобы изучить стратегии улучшения их производительности по геометрическим задачам. Наши выводы подчеркивают преимущества некоторых архитектур моделей, техник обучения и стратегий данных, включая использование синтетических данных высокого качества и многоуровневое обучение с учебным планом данных. Особенно мы обнаруживаем, что учебный план данных позволяет моделям изучать сложные задачи понимания геометрии, которые они не могут усвоить с нуля. Основываясь на этих выводах, мы разрабатываем Евклид, семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Евклид обучался исключительно на синтетических мультимодальных данных, он демонстрирует сильные способности к обобщению на новых геометрических формах. Например, Евклид превосходит лучшую закрытую модель Gemini-1.5-Pro на 58.56% по определенным задачам эталона Геовосприятия и на 10.65% в среднем по всем задачам.

Phi-4: Модель языка нового поколения

Мы представляем phi-4, языковую модель с 14 миллиардами параметров, разработанную с рецептом обучения, который основное внимание уделяет качеству данных. В отличие от большинства языковых моделей, где предобучение в основном основано на органических источниках данных, таких как веб-контент или код, phi-4 стратегически включает синтетические данные на протяжении всего процесса обучения. В то время как предыдущие модели из семейства Phi в основном дистиллируют возможности модели-учителя (в частности, GPT-4), phi-4 существенно превосходит свою модель-учитель по возможностям QA, сосредоточенным на STEM, что свидетельствует о том, что наши методы генерации данных и постобучения выходят за пределы дистилляции. Несмотря на минимальные изменения в архитектуре phi-3, phi-4 демонстрирует отличные результаты по сравнению со своим размером - особенно на эталонах, ориентированных на рассуждение - благодаря улучшенным данным, учебной программе и инновациям в схеме постобучения.

R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В данной статье представлен RuleArena, новый и сложный ориентир, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам из реальной жизни в рассуждениях. Охватывая три практические области — сборы за багаж авиакомпаний, сделки НБА и налоговое законодательство — RuleArena оценивает мастерство LLM в обработке сложных инструкций на естественном языке, требующих понимания длинного контекста, логического рассуждения и точных математических расчетов. Две ключевые особенности отличают RuleArena от традиционных ориентиров на основе правил: (1) он выходит за пределы стандартных представлений логики первого порядка и (2) он основан на подлинных практических сценариях, предоставляя информацию о пригодности и надежности LLM для применения в реальных условиях. Наши результаты выявляют несколько заметных ограничений в LLM: (1) они испытывают трудности с идентификацией и применением соответствующих правил, часто путаясь в схожих, но различных регламентах, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом, они демонстрируют плохие результаты в тестировании. Эти результаты подчеркивают значительные проблемы в развитии возможностей рассуждения LLM на основе правил в реальных приложениях.

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

Shiksha: Модель и датасет для перевода на индийские языки в технической области

Нейронные модели машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Таким образом, модели перевода в целом испытывают трудности с задачами, связанными с научным пониманием или техническим жаргоном. Их производительность оказывается даже хуже для языков Индии с низкими ресурсами. Найти набор данных для перевода, который бы охватывал эти области, представляет собой серьезную задачу. В данной работе мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк высококачественных пар переводов с английского на индийские языки и с индийских языков на индийские языки по восьми индийским языкам. Мы достигаем этого, извлекая двуязычные тексты из переведенных человеком расшифровок видеолекций NPTEL. Мы также дообучаем и оцениваем модели NMT, используя этот корпус, и превосходим все другие публично доступные модели в задачах внутри области. Мы также демонстрируем потенциал для обобщения на задачи перевода вне области, улучшая базовый уровень более чем на 2 BLEU в среднем для этих индийских языков по эталону Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

Дисентанглинг позы: управление анимацией человеческих изображений

Контролируемая анимация человеческого изображения направлена на генерацию видео из эталонных изображений с использованием управляющих видеозаписей. Из-за ограниченных контрольных сигналов, предоставляемых разреженным управлением (например, поза скелета), в недавних работах были предприняты попытки ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить согласование движений. Однако такое строгое плотное управление ухудшает качество сгенерированного видео, когда форма тела эталонного персонажа значительно отличается от формы тела в управляющем видео. В этой статье мы представляем DisPose, чтобы извлечь более универсальные и эффективные контрольные сигналы без дополнительного плотного ввода, который разделяет разреженную позу скелета в анимации человеческого изображения на руководство полем движений и соответствие ключевым точкам. В частности, мы генерируем плотное поле движений из разреженного поля движений и эталонного изображения, что обеспечивает плотное руководство на уровне регионов, сохраняя возможность обобщения разреженного контроля позы. Мы также извлекаем диффузионные признаки, соответствующие ключевым точкам позы из эталонного изображения, и затем эти точечные признаки передаются на целевую позу для предоставления четкой идентификационной информации. Чтобы бесшовно интегрироваться в существующие модели, мы предлагаем гибридный ControlNet, который улучшает качество и согласованность сгенерированных видео, замораживая параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

Word Sense Linking: Новая Эра в Разрешении Смысла Слов

Дисамбигация значений слов (WSD) – это задача ассоциации слова в данном контексте с его наиболее подходящим значением среди набора возможных кандидатов. Хотя в последнее время задача привлекла renewed интерес, и системы показывают результаты выше оценочного соглашения между аннотаторами, на момент написания она все еще испытывает трудности с поиском downstream приложений. Мы утверждаем, что одной из причин этого является сложность применения WSD к простому тексту. На самом деле, в стандартной формулировке модели работают при следующих предположениях: а) все диапазоны, которые необходимо дизамбигировать, были заранее определены, и б) предоставлены все возможные кандидатные значения каждого диапазона, что является требованиями, которые далеко не тривиальны. В этой работе мы представляем новую задачу, называемую связыванием значений слов (WSL), где, учитывая входной текст и справочник значений, системам необходимо как определить, какие диапазоны необходимо дизамбигировать, так и связать их с наиболее подходящим значением. Мы предлагаем архитектуру на основе трансформеров для задачи и тщательно оцениваем как ее производительность, так и производительность современных систем WSD, адаптированных к WSL, постепенно ослабляя предположения WSD. Мы надеемся, что наша работа будет способствовать более легкой интеграции лексической семантики в downstream приложения.

Обучение сжатия для сжатого обучения: концепции и реализация WaLLoC

Современные датчики производят все более богатые потоки данных высокого разрешения. Из-за ограничения ресурсов системы машинного обучения отказываются от подавляющего большинства этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, что обеспечивает более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Кодирование линейных преобразований и системы сжатия, обученные от начала до конца, уменьшают битрейт, но не равномерно снижают размерность; таким образом, они незначительно увеличивают эффективность. Генеративные автокодировщики уменьшают размерность, но их антагонистические или перцептивные цели приводят к значительной потере информации. Чтобы решить эти проблемы, мы представляем WaLLoC (Wavelet Learned Lossy Compression), архитектуру нейронного кодека, которая сочетает кодирование линейных преобразований с нелинейными автокодировщиками, уменьшающими размерность. WaLLoC помещает поверхностный, асимметричный автокодировщик и энтропийную узкую часть между обратимым преобразованием вейвлет-пакета. По нескольким ключевым метрикам WaLLoC превосходит автокодировщики, используемые в современных моделях латентного диффузионного обучения. WaLLoC не требует перцептивных или антагонистических потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями, выходящими за рамки RGB-изображений и стереозвука. Кодировщик WaLLoC почти полностью состоит из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем возможности WaLLoC для обучения в сжатом домене в рамках нескольких задач, включая классификацию изображений, колоризацию, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио и видеокодеки доступны по адресу https://ut-sysml.org/walloc.

Влияние авторских материалов на большие языковые модели: Норвежская перспектива

Использование материалов с авторскими правами в обучении генеративных языковых моделей поднимает критически важные юридические и этические вопросы. В данной статье представлен фреймворк и результаты эмпирической оценки влияния материалов с авторскими правами на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на оценку моделей по разнообразным норвежским эталонам, в то время как художественные произведения, возможно, приводят к снижению производительности. Наши эксперименты могут способствовать созданию схемы компенсации для авторов, чьи работы вносят вклад в развитие ИИ.

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

JuStRank: Оценка LLM-судей для ранжирования систем

Учитывая быстрый прогресс генеративного ИИ, существует настоятельная необходимость систематически сравнивать и выбирать между многочисленными моделями и конфигурациями. Масштаб и универсальность таких оценок делают использование судей на основе больших языковых моделей (LLM) убедительным решением для этой задачи. Ключевым моментом в этом подходе является необходимость сначала проверить качество самого судьи LLM. Предыдущие работы сосредотачивались на оценке судей LLM на основе конкретных примеров, где судья оценивается по набору ответов или парам ответов, оставаясь при этом нейтральным к их исходным системам. Мы утверждаем, что эта обстановка упускает из виду критически важные факторы, влияющие на ранжирование на уровне системы, такие как положительная или отрицательная предвзятость судьи к определённым системам. Чтобы устранить этот пробел, мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Баллы системы генерируются путем агрегирования оценок судей по нескольким выводам системы, а качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием, основанным на мнении человека. Кроме общей оценки судьи, наш анализ предоставляет детализированную характеристику поведения судьи, включая их решительность и предвзятость.

FreeSplatter: Платформа для Реконструкции 3D из Редких Взглядов

Существующие модели реконструкции с разреженным обзором сильно зависят от точных известных поз камер. Тем не менее, получение эксцентриков и интринсиков камер из изображений с разреженным обзором представляет собой значительные трудности. В этой работе мы представляем FreeSplatter, высокомасштабируемую структуру реконструкции с прямой подачей, способную генерировать высококачественные 3D-гауссианы из некалиброванных изображений с разреженным обзором и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощённой архитектуре трансформера, состоящей из последовательных блоков самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-ориентированные 3D-гауссианские примитивы. Прогнозируемые гауссианские примитивы располагаются в единой эталонной системе координат, что позволяет осуществлять точное 3D-моделирование и мгновенную оценку параметров камеры с использованием стандартных решателей. Чтобы удовлетворить потребности как объектно-центрической, так и сценовой реконструкции, мы обучаем две модели варианта FreeSplatter на обширных датасетах. В обоих случаях FreeSplatter превосходит современные методики по качеству реконструкции и точности оценки позы. Более того, мы демонстрируем потенциал FreeSplatter в повышении продуктивности последующих приложений, таких как создание контента из текста/изображений в 3D.

OLA-VLM: Оптимизация визуального восприятия в многомодальных больших языковых моделях

Стандартная практика разработки современных многомодальных языковых моделей (MLLM) заключается в том, чтобы подавать признаки от визуальных кодеров в языковую модель (LLM) и обучаться с использованием естественного языка. В этой работе мы выдвигаем упущенную возможность оптимизировать промежуточные представления LLM с точки зрения визуального восприятия (цель), т.е. использование только естественного языка в качестве надзора является субоптимальным для способности MLLM к визуальному пониманию. С этой целью мы предлагаем OLA-VLM, первый подход, который дистиллирует знания в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель на этапе предобучения MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием естественного языка, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их последующей производительностью. Более того, при изучении нашего OLA-VLM мы наблюдаем улучшение качества представления благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит базовые уровни одно- и многокодировщиков, подтверждая превосходство нашего подхода по сравнению с явной подачей соответствующих признаков в LLM. В частности, OLA-VLM увеличивает производительность в среднем на 2,5% по различным тестам, с заметным улучшением на 8,7% в задаче Depth в CV-Bench. Наш код является открытым источником по адресу https://github.com/SHI-Labs/OLA-VLM.

Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Мы рассматриваем проблему оценки целевого взгляда, которая направлена на предсказание того, куда смотрит человек в сцене. Для предсказания целевого взгляда человека требуется рассуждение как о внешнем виде человека, так и о содержании сцены. Ранее разработанные работы создали все более сложные ручные схемы для оценки целевого взгляда, которые тщательно объединяют признаки из различных кодировщиков сцен, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и положение. Побуждаемые успехом универсальных экстракторов признаков в различных визуальных задачах, мы предлагаем Gaze-LLE — новую трансформерную структуру, которая упрощает оценку целевого взгляда, используя признаки из замороженного DINOv2 кодировщика. Мы извлекаем одно представление признака для сцены и применяем специфичный для человека позиционный запрос для декодирования взгляда с помощью легковесного модуля. Мы демонстрируем передовые достижения в нескольких бенчмарках по оценке взгляда и предоставляем обширный анализ для проверки наших проектных решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

Neural Light Rig: Точное восстановление нормалей объектов и материалов с помощью многосветового диффузионного моделирования

Восстановление геометрии и материалов объектов из одного изображения представляет собой сложную задачу из-за его недоопределенного характера. В этой статье мы представляем Neural LightRig, новую структуру, которая усиливает внутреннюю оценку, используя вспомогательные условия многосветовой подсветки из 2D-диффузионных приоритетов. В частности, 1) сначала мы используем приоритеты освещения из моделей диффузии большого масштаба, чтобы построить нашу многосветовую модель диффузии на синтетическом наборе данных перераспределения с выделенными дизайнами. Эта модель диффузии генерирует множество согласованных изображений, каждое из которых освещено точечными источниками света в разных направлениях. 2) Используя эти разнообразные освещенные изображения для снижения неопределенности оценки, мы обучаем большую модель G-буфера с архитектурой U-Net для точного предсказания нормалей поверхности и материалов. Обширные эксперименты подтверждают, что наш подход значительно превосходит современные методы, что позволяет точно оценивать нормали поверхности и материалы PBR с яркими эффектами перераспределения освещения. Код и набор данных доступны на нашей странице проекта по адресу https://projects.zxhezexin.com/neural-lightrig.

InternLM-XComposer2.5-OmniLive: Многофункциональная система для долгосрочных взаимодействий с видео и аудио

Создание систем ИИ, которые могут взаимодействовать с окружающей средой в течение длительного времени, аналогично человеческому познанию, было давней исследовательской целью. Недавние достижения в области многомодальных больших языковых моделей (MLLM) сделали значительные успехи в понимании открытого мира. Однако задача непрерывного и одновременного восприятия, хранения памяти и рассуждений остается в значительной степени неисследованной. Текущие MLLM ограничены своей архитектурой «последовательность в последовательность», что ограничивает их способность обрабатывать вводимые данные и генерировать ответы одновременно, подобно неспособности мыслить во время восприятия. Более того, полагаться на долгие контексты для хранения исторических данных непрактично для долгосрочных взаимодействий, поскольку удержание всей информации становится дорогостоящим и неэффективным. Поэтому вместо того, чтобы полагаться на единую базовую модель для выполнения всех функций, этот проект черпает вдохновение из концепции специализированного универсального ИИ и вводит механизмы раздельного потокового восприятия, рассуждений и памяти, позволяя взаимодействовать в реальном времени с потоковым видео и аудио вводом. Предлагаемая структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль потокового восприятия: обрабатывает многомодальную информацию в реальном времени, сохраняя ключевые детали в памяти и инициируя рассуждения в ответ на запросы пользователей. (2) Модуль многомодальной долгосрочной памяти: интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и повышения точности. (3) Модуль рассуждений: отвечает на запросы и выполняет задачи рассуждения, координируя работу с модулями восприятия и памяти. Этот проект имитирует человеческое подобное познание, позволяя многомодальным большим языковым моделям предоставлять непрерывные и адаптивные услуги с течением времени.

AgentTrek: Синтез траекторий агентов через руководство с использованием веб-учебников

Графические интерфейсы пользователя (GUI) имеют большой потенциал для автоматизации сложных задач в различных цифровых средах, от веб-приложений до настольного программного обеспечения. Однако развитие таких агентов затрудняется отсутствием качественных данных о многоступенчатых траекториях, необходимых для эффективного обучения. Существующие подходы полагаются на дорогую и трудоемкую аннотацию людьми, что делает их неустойчивыми в больших масштабах. Для решения этой проблемы мы предлагаем AgentTrek, масштабируемый поток данных синтеза, который генерирует качественные траектории GUI-агентов, используя веб-уроки. Наш метод автоматически собирает тексты, подобные учебникам, из интернета, трансформирует их в цели задач с пошаговыми инструкциями и использует агента модели визуального языка для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение GUI-агентов с помощью этих синтезированных траекторий значительно улучшает их основание и планирование по сравнению с существующими моделями. Более того, наш подход более экономически эффективен по сравнению с традиционными методами аннотации людьми. Эта работа подчеркивает потенциал управляемого воспроизведения с помощью веб-уроков как жизнеспособной стратегии для обучения GUI-агентов в больших масштабах, открывая путь к более способным и автономным цифровым агентам.

EasyRef: Новый Подход к Генерации Изображений с Множественными Ссылками

В области персонализации диффузионных моделей достигнуты значительные успехи. Обычные методы без настройки в основном кодируют несколько эталонных изображений, усредняя их встраивания, что служит условием инъекции. Однако такая независимая от изображения операция не может взаимодействовать между изображениями, чтобы зафиксировать последовательные визуальные элементы в нескольких эталонных изображениях. Хотя основанная на настройках низкоранговая адаптация (LoRA) эффективно извлекает последовательные элементы из нескольких изображений в процессе обучения, она требует конкретной тонкой настройки для каждой отдельной группы изображений. В данной статье представлена EasyRef, новый метод адаптации «включи и работай», который позволяет диффузионным моделям опираться на несколько эталонных изображений и текстовый запрос. Для эффективного использования последовательных визуальных элементов из нескольких изображений, мы используем способности многомодальной большой языковой модели (MLLM) к пониманию множества изображений и следованию инструкциям, побуждая её захватывать последовательные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые домены, извлекая последовательные визуальные элементы из невидимых данных. Чтобы смягчить вычислительные затраты и повысить сохранение детализированных деталей, мы представляем эффективную стратегию агрегации ссылок и прогрессивную схему обучения. Наконец, мы представляем MRBench, новую модель для генерации изображений с несколькими ссылками. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и методы на основе настройки, такие как LoRA, достигая превосходного эстетического качества и надежной обобщаемости нулевых шотов в самых разных областях.

SnapGen: Эффективные архитектуры и обучение высококачественных моделей текст-в-изображение для мобильных устройств

Существующие модели диффузии текст-в-изображение (T2I) сталкиваются с несколькими ограничениями, включая большие размеры моделей, медленное время выполнения и низкое качество генерации на мобильных устройствах. Цель этой статьи — решить все эти задачи, разработав исключительно маленькую и быструю модель T2I, которая генерирует изображения высокого разрешения и высокого качества на мобильных платформах. Мы предлагаем несколько методов для достижения этой цели. Во-первых, мы систематически рассматриваем выборы дизайна архитектуры сети, чтобы уменьшить параметры модели и задержку, при этом обеспечивая высокое качество генерации. Во-вторых, для дальнейшего улучшения качества генерации мы используем кросс-архитектурную дистилляцию знаний от гораздо большей модели, применяя многоуровневый подход для направления обучения нашей модели с нуля. В-третьих, мы обеспечиваем генерацию за несколько шагов, интегрируя противоречивую поддержку с дистилляцией знаний. Впервые наша модель SnapGen демонстрирует генерацию изображений размером 1024x1024 пикселя на мобильном устройстве за примерно 1.4 секунды. На ImageNet-1K наша модель с всего 372M параметрами достигает FID 2.06 для генерации 256x256 пикселей. На бенчмарках T2I (т.е. GenEval и DPG-Bench) наша модель с всего 379M параметрами превосходит крупномасштабные модели с миллиардами параметров при значительно более мелком размере (например, в 7 раз меньше, чем SDXL, в 14 раз меньше, чем IF-XL).

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.