Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "model"

RAG-RewardBench: Оценка моделей вознаграждения в контексте генерации с использованием дополненной выборки

Несмотря на значительный прогресс, достигнутый существующими языковыми моделями с дополненной извлечением (RALMs) в обеспечении надежных ответов и оснований на надежных источниках, они часто упускают из виду эффективное согласование с предпочтениями человека. В процессе согласования модели вознаграждения (RMs) выступают в качестве важного прокси для человеческих ценностей, чтобы направлять оптимизацию. Однако до сих пор неясно, как оценить и выбрать надежную RM для согласования предпочтений в RALMs. В этой связи мы предлагаем RAG-RewardBench, первую оценочную таблицу для оценки RMs в условиях RAG. Сначала мы разрабатываем четыре ключевых и сложных сценария, специфичных для RAG, для оценки RMs, включая многоступенчатое рассуждение, детальную цитату, соответствующее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть извлекателей и 24 RALMs, чтобы увеличить разнообразие источников данных. Наконец, мы используем подход LLM-as-a-judge для повышения эффективности и результативности аннотирования предпочтений, демонстрируя сильную корреляцию с аннотациями человека. На основе RAG-RewardBench мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также обнаруживаем, что уже обученные RALMs почти не показывают улучшения в согласовании предпочтений, подчеркивая необходимость перехода к обучению, основанному на предпочтениях. Мы публикуем нашу оценочную таблицу и код в открытом доступе по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих исследований.

CAD-Recode: Обратная инженерия CAD-кода из облаков точек

Модели, созданные с помощью компьютерногоAided Design (CAD), обычно строятся путем последовательного рисования параметрических скетчей и применения операций CAD для получения 3D модели. Проблема обратного инжиниринга 3D CAD состоит в восстановлении последовательностей скетчей и операций CAD из 3D представлений, таких как облака точек. В этой работе мы обращаемся к этой задаче через новые вклады на трех уровнях: представление последовательностей CAD, проектирование сети и набор данных. В частности, мы представляем последовательности скетч-экструзий CAD как код Python. Предложенный CAD-Recode преобразует облако точек в код Python, который, когда выполняется, восстанавливает модель CAD. Используя преимущества открытости предобученных больших языковых моделей (LLMs) к коду Python, мы используем относительно небольшую LLM в качестве декодера для CAD-Recode и комбинируем ее с легким проектором облаков точек. CAD-Recode обучается исключительно на предложенном синтетическом наборе данных из одного миллиона разнообразных последовательностей CAD. CAD-Recode значительно превосходит существующие методы по трем наборам данных, требуя при этом меньшее количество входных точек. Примечательно, что он достигает в 10 раз меньшего среднего расстояния Шамфера, чем самые современные методы на наборах данных DeepCAD и Fusion360. Кроме того, мы показываем, что наш вывод кода Python CAD интерпретируем LLMs с торговых полок, что позволяет редактировать CAD и отвечать на специфические для CAD вопросы на основе облаков точек.

AniDoc: Упрощение создания анимации с помощью ИИ

Производство 2D-анимации следует стандартному рабочему процессу в отрасли, включая четыре основных этапа: разработку персонажей, анимацию основных кадров, промежуточную анимацию и раскраску. Наша работа сосредоточена на снижении трудозатрат в указанном процессе за счет использования потенциала все более мощного генеративного ИИ. Используя модели видеодифузии в качестве основы, AniDoc выступает в качестве инструмента для цветового обозначения видеолинейного искусства, который автоматически преобразует последовательности эскизов в цветные анимации в соответствии с заданными характеристиками персонажа. Наша модель использует сопоставление соответствия в качестве явного руководства, что обеспечивает высокую устойчивость к изменениям (например, в позе) между эталонным персонажем и каждым кадром линейного искусства. Кроме того, наша модель может даже автоматизировать процесс промежуточной анимации, что позволяет пользователям легко создавать временно согласованную анимацию, просто предоставив изображение персонажа, а также начальные и конечные эскизы. Наш код доступен по адресу: https://yihao-meng.github.io/AniDoc_demo.

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

MOVIS: Улучшение синтеза новых видов для многопредметных сцен

Переосмысление предварительно обученных диффузионных моделей оказалось эффективным для NVS. Однако эти методы в основном ограничены одним объектом; прямое применение таких методов к композиционным сценариям с несколькими объектами дает худшие результаты, особенно неправильное размещение объектов и непоследовательные формы и внешний вид при новых ракурсах. Способы повышения и систематической оценки кросс-видовой согласованности таких моделей остаются недостаточно исследованными. Чтобы решить эту проблему, мы предлагаем MOVIS для повышения структурной осведомленности модели диффузии, зависящей от вида, для многопредметного NVS с точки зрения входных данных модели, вспомогательных задач и стратегии обучения. Во-первых, мы вводим осведомленные о структуре признаки, включая глубину и маску объекта, в U-Net для удаления шума, чтобы улучшить понимание моделью экземпляров объектов и их пространственных взаимосвязей. Во-вторых, мы вводим вспомогательную задачу, требующую от модели одновременного предсказания масок объектов нового ракурса, что дополнительно улучшает способность модели различать и размещать объекты. Наконец, мы проводим углубленный анализ процесса выборки диффузии и тщательно разрабатываем планировщик выборки по временным шагам, ориентированный на структуру, во время обучения, который балансирует обучение глобальному размещению объектов и восстановлению тонких деталей. Чтобы систематически оценить правдоподобие синтезированных изображений, мы предлагаем оценить кросс-видовую согласованность и размещение объектов нового ракурса наряду с существующими метриками NVS на уровне изображений. Обширные эксперименты на сложных синтетических и реалистичных наборах данных демонстрируют, что наш метод обладает сильными способностями к обобщению и производит согласованный синтез новых видов, подчеркивая его потенциал для руководства будущими задачами NVS с несколькими объектами, учитывающими 3D.

Удивительные матрицы: объединение для более эффективной и эффективной архитектуры базовой модели

Для повышения эффективности и результативности базовой модели мы предлагаем комбинировать преобразование последовательностей и преобразование состояний. Сначала мы докажем доступность ротационного позиционного встраивания в алгоритме двойственности состояния, что снижает перплексию гибридного квадратичного причинно-следственного самообращения и двойственности состояния более чем на 4%, чтобы гарантировать, что комбинирование преобразования последовательностей унифицирует позиционное кодирование. Во-вторых, мы предлагаем динамическое маскирование внимания, которое сохраняет 100% точность в более сложной задаче множественного запроса ассоциативного воспоминания, улучшая результаты более чем на 150% по сравнению с квадратичным причинно-следственным самообращением и двойственностью состояния, чтобы гарантировать, что комбинирование преобразования последовательностей выборочно фильтрует релевантную информацию. В-третьих, мы разрабатываем смешанную экспертизу в пересечении доменов, что делает скорость вычисления поиска экспертов с более чем 1024 экспертами в 8-10 раз быстрее, чем смешанная экспертиза, чтобы гарантировать, что комбинирование преобразования состояния быстро извлекает смесь. Наконец, мы подводим итоги этим матричным алгоритмам, которые могут составить основу модели: Удивительные матрицы, которые могут стать конкурентом популярным архитектурам моделей.

Преимущества открытых моделей в области больших языковых моделей (LLM)

Большие языковые модели (LLM) ознаменовывают ключевой сдвиг в обработке естественного языка (NLP), достигнув успехов в генерации текста, переводе и специфическом для области рассуждении. Закрытые модели, такие как GPT-4, поддерживаемые проприетарными наборами данных и обширными вычислительными ресурсами, сегодня демонстрируют выдающиеся результаты. Однако они подвергаются критике за свою "черную коробку" и за ограничение доступности в такой степени, которая затрудняет воспроизводимость и справедливое развитие ИИ. В отличие от них, инициативы с открытым исходным кодом, такие как LLaMA и BLOOM, ставят на первое место демократизацию через развитие, управляемое сообществом, и вычислительную эффективность. Эти модели значительно сократили различия в производительности, особенно в лингвистическом разнообразии и специфических для области приложениях, предлагая доступные инструменты для глобальных исследователей и разработчиков. Замечательно, что обе парадигмы опираются на основные архитектурные инновации, такие как структура Transformer, предложенная Васвани и др. (2017). Закрытые модели превосходят, эффективно масштабируясь, в то время как открытые модели адаптируются к реальным приложениям на недостаточно представленными языками и в областях. Такие техники, как низкоранговая адаптация (LoRA) и наборы данных для настройки инструкций, позволяют открытым моделям достигать конкурентных результатов, несмотря на ограниченные ресурсы. Безусловно, противоречие между закрытыми и открытыми подходами подчеркивает более широкий дебат о прозрачности в ущерб проприетарному контролю в ИИ. Этические соображения еще больше подчеркивают этот разрыв. Закрытые системы ограничивают внешнюю проверку, в то время как открытые модели способствуют воспроизводимости и сотрудничеству, но им не хватает стандартных документов для аудита, чтобы уменьшить предвзятости. Гибридные подходы, использующие сильные стороны обеих парадигм, вероятно, будут формировать будущее инноваций LLM, обеспечивая доступность, конкурентоспособную техническую производительность и этическое внедрение.

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

DynamicScaler: Бесшовная и Масштабируемая Генерация Видео для Панорамных Сцен

С increasing требованием к погружающим AR/VR приложениям и пространственному интеллекту возросла необходимость в создании видеосодержимого высокого качества на уровне сцен и 360° панорамного видео. Однако большинство моделей диффузии видео ограничены разрешением и соотношением сторон, что ограничивает их применимость для синтеза динамического контента на уровне сцен. В этой работе мы предлагаем DynamicScaler, который решает эти проблемы, позволяя осуществлять пространственно масштабируемый и панорамный динамический синтез сцен, сохраняя согласованность в панорамных сценах произвольного размера. В частности, мы представляем Denoiser с Сдвигом Смещения, облегчающий эффективное, синхронное и согласованное уменьшение шума панорамных динамических сцен с помощью модели диффузии с фиксированным разрешением через бесшовное вращающееся окно, что обеспечивает бесшовные переходы границ и согласованность по всему панорамному пространству, учитывая различные разрешения и соотношения сторон. Кроме того, мы используем механизм Глобального Направления Движения, чтобы обеспечить как локальную детализацию, так и глобальную непрерывность движения. Обширные эксперименты показывают, что наш метод обеспечивает превосходное качество контента и движения при генерации панорамного видео на уровне сцен, предлагая решение без необходимости в обучении, эффективное и масштабируемое для создания погружающих динамических сцен с постоянным потреблением VRAM независимо от разрешения выходного видео. Наша страница проекта доступна по адресу https://dynamic-scaler.pages.dev/.

vrmodelar

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

FireFlow: Быстрая инверсия ректифицированного потока для семантического редактирования изображений

Хотя ректифицированные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого выборки, их быстрая инверсия преобразует изображения обратно в структурированный шум для восстановления, и последующее редактирование остается нерешенной задачей. В этой статье представлено решение FireFlow, простой, но эффективный подход нулевого выстрела, который наследует потрясающую способность моделей на основе ReFlow (таких как FLUX) в генерации, одновременно расширяя их возможности до точной инверсии и редактирования за 8 шагов. Сначала мы демонстрируем, что тщательно разработанный численный решатель имеет решающее значение для инверсии ReFlow, позволяя точную инверсию и реконструкцию с точностью решателя второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот решатель достигает трехкратного увеличения скорости работы по сравнению с современными методами инверсии и редактирования ReFlow, при этом обеспечивая меньшие ошибки реконструкции и превосходные результаты редактирования в режиме без обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

SmolTulu: Оптимизация Обучения Языковых Моделей через Соотношение Темпа Обучения и Размеров Пакетов

Мы представляем SmolTulu-1.7b-Instruct, упомянутый в этом отчете как SmolTulu-DPO-1130, языковую модель, откалиброванную на инструкции, которая адаптирует постобучение Tulu 3 от AllenAI для улучшения базовой модели Huggingface SmolLM2-1.7B. Путем комплексного эмпирического анализа с использованием модели на 135M параметров мы демонстрируем, что связь между скоростью обучения и размером батча значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи на рассуждение, такие как ARC и GSM8K, выигрывают от более высоких соотношений скорости обучения к размеру батча, в то время как задачи распознавания шаблонов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими соотношениями. Эти идеи легли в основу разработки SmolTulu, которая достигает передовой производительности среди моделей с менее чем 2B параметров в отслеживании инструкций, набирая 67.7% на IFEval (Delta11%), и математическом рассуждении с 51.6% на GSM8K (Delta3.4%), с альтернативной версией, набирающей 57.1% на ARC (Delta5.4%). Мы публикуем нашу модель, рецепты обучения и абляционные исследования для содействия дальнейшим исследованиям в области эффективного согласования моделей, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и крупными языковыми моделями.

Улучшение пространственно-временной осведомленности моделей VLA с помощью визуального трассирования

Хотя крупные модели языка-видения-действия (VLA), предварительно обученные на обширных наборах данных роботов, предлагают многообещающие универсальные стратегии для обучения роботов, они всё ещё испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в выполнении сложных задач, таких как манипуляция. В данной работе мы представляем визуальное отслеживание подсказок, простой но эффективный подход для содействия пространственно-временной осведомленности моделей VLA при предсказании действий путём визуального кодирования траекторий состояния-действия. Мы разработали новую модель TraceVLA, дообучив OpenVLA на собственно собранном наборе данных из 150 000 траекторий манипуляции роботов с использованием визуального отслеживания подсказок. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовые характеристики, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза на задачах с реальными роботами, а также показывая надёжную генерализацию на различных воплощениях и сценариях. Для дальнейшей проверки эффективности и универсальности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предварительно обученную на Open-X-Embodiment и дообученную на нашем наборе данных, которая соперничает с базовой моделью 7B OpenVLA, значительно улучшая эффективность вывода.

Phi-4: Модель языка нового поколения

Мы представляем phi-4, языковую модель с 14 миллиардами параметров, разработанную с рецептом обучения, который основное внимание уделяет качеству данных. В отличие от большинства языковых моделей, где предобучение в основном основано на органических источниках данных, таких как веб-контент или код, phi-4 стратегически включает синтетические данные на протяжении всего процесса обучения. В то время как предыдущие модели из семейства Phi в основном дистиллируют возможности модели-учителя (в частности, GPT-4), phi-4 существенно превосходит свою модель-учитель по возможностям QA, сосредоточенным на STEM, что свидетельствует о том, что наши методы генерации данных и постобучения выходят за пределы дистилляции. Несмотря на минимальные изменения в архитектуре phi-3, phi-4 демонстрирует отличные результаты по сравнению со своим размером - особенно на эталонах, ориентированных на рассуждение - благодаря улучшенным данным, учебной программе и инновациям в схеме постобучения.

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

SnapGen: Эффективные архитектуры и обучение высококачественных моделей текст-в-изображение для мобильных устройств

Существующие модели диффузии текст-в-изображение (T2I) сталкиваются с несколькими ограничениями, включая большие размеры моделей, медленное время выполнения и низкое качество генерации на мобильных устройствах. Цель этой статьи — решить все эти задачи, разработав исключительно маленькую и быструю модель T2I, которая генерирует изображения высокого разрешения и высокого качества на мобильных платформах. Мы предлагаем несколько методов для достижения этой цели. Во-первых, мы систематически рассматриваем выборы дизайна архитектуры сети, чтобы уменьшить параметры модели и задержку, при этом обеспечивая высокое качество генерации. Во-вторых, для дальнейшего улучшения качества генерации мы используем кросс-архитектурную дистилляцию знаний от гораздо большей модели, применяя многоуровневый подход для направления обучения нашей модели с нуля. В-третьих, мы обеспечиваем генерацию за несколько шагов, интегрируя противоречивую поддержку с дистилляцией знаний. Впервые наша модель SnapGen демонстрирует генерацию изображений размером 1024x1024 пикселя на мобильном устройстве за примерно 1.4 секунды. На ImageNet-1K наша модель с всего 372M параметрами достигает FID 2.06 для генерации 256x256 пикселей. На бенчмарках T2I (т.е. GenEval и DPG-Bench) наша модель с всего 379M параметрами превосходит крупномасштабные модели с миллиардами параметров при значительно более мелком размере (например, в 7 раз меньше, чем SDXL, в 14 раз меньше, чем IF-XL).

Neural Light Rig: Точное восстановление нормалей объектов и материалов с помощью многосветового диффузионного моделирования

Восстановление геометрии и материалов объектов из одного изображения представляет собой сложную задачу из-за его недоопределенного характера. В этой статье мы представляем Neural LightRig, новую структуру, которая усиливает внутреннюю оценку, используя вспомогательные условия многосветовой подсветки из 2D-диффузионных приоритетов. В частности, 1) сначала мы используем приоритеты освещения из моделей диффузии большого масштаба, чтобы построить нашу многосветовую модель диффузии на синтетическом наборе данных перераспределения с выделенными дизайнами. Эта модель диффузии генерирует множество согласованных изображений, каждое из которых освещено точечными источниками света в разных направлениях. 2) Используя эти разнообразные освещенные изображения для снижения неопределенности оценки, мы обучаем большую модель G-буфера с архитектурой U-Net для точного предсказания нормалей поверхности и материалов. Обширные эксперименты подтверждают, что наш подход значительно превосходит современные методы, что позволяет точно оценивать нормали поверхности и материалы PBR с яркими эффектами перераспределения освещения. Код и набор данных доступны на нашей странице проекта по адресу https://projects.zxhezexin.com/neural-lightrig.

Mogo: Иерархический Каскадный Трансформер для Генерации 3D Движений Человека

В области генерации текста в движение модели маскированного типа Bert (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с автогенеративными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто не обладают возможностью потокового вывода, необходимой для применения в видеоиграх и мультимедийных средах, что является внутренней особенностью моделей типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Чтобы превзойти качество моделей типа BERT, используя структуру типа GPT, не добавляя дополнительных моделей уточнения, которые усложняют масштабирование данных, мы предлагаем новую архитектуру Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные 3D движения человека, обучая единственную модель трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический резидульный векторный квантизационный вариационный автокодировщик, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический каузальный трансформер, отвечающий за генерирование базовых последовательностей движения авторегрессивным способом, одновременно выводя остатки через разные слои. Экспериментальные результаты демонстрируют, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превышая ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе HumanML3D Mogo достигает FID-оценки 0.079, превышая как модель типа GPT T2M-GPT (FID = 0.116), так и AttT2M (FID = 0.112), а также модель типа BERT MMM (FID = 0.080). Более того, наша модель демонстрирует лучшее количественное выполнение в генерации вне распределения.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

MIT-10M: Новый стандарт в области перевода изображений

Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержание внутри изображений на различные языки. Однако существующие наборы данных часто страдают от ограничений по масштабу, разнообразию и качеству, что препятствует разработке и оценке моделей IT. Чтобы решить эту проблему, мы представляем MIT-10M, крупномасштабный параллельный корпус многоязычного перевода изображений с более чем 10 миллионами пар изображений и текста, полученных из реальных данных, которые прошли тщательную очистку и проверку многоязычного перевода. Он содержит 840 тысяч изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 языков пар изображений и текста, что является значительным улучшением существующих наборов данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает высокой адаптивностью при оценке производительности моделей в решении сложных задач перевода изображений в реальном мире. Более того, производительность модели, дообученной на MIT-10M, утроилась по сравнению с базовой моделью, что дополнительно подтверждает ее превосходство.

LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

Недавние достижения в генерации изображений из текста (T2I) продемонстрировали выдающиеся результаты в создании высококачественных изображений на основе текста. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации составных изображений с участием нескольких объектов и сложными взаимосвязями. Мы связываем эту проблему с ограничениями существующих наборов данных пар изображений и текста, которые не содержат точных аннотаций взаимосвязей между объектами и имеют только подсказки. Чтобы решить эту проблему, мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями графов сцен (SG), которые точно описывают атрибуты и взаимосвязи нескольких объектов, эффективно представляя семантическую структуру в сложных сценах. На основе LAION-SG мы обучаем новую базовую модель SDXL-SG, чтобы интегрировать информацию о структурных аннотациях в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительные улучшения производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели по генерации составных изображений, устанавливая новый стандарт в этой области.

FlowEdit: Новый Подход к Редактированию Изображений на Основе Текста

Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текст-в-изображение (T2I) часто включает в себя инвертирование изображения в соответствующую карту шума. Однако только инверсия обычно недостаточна для получения удовлетворительных результатов, и поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но их нельзя бесшовно переносить между архитектурами моделей. Здесь мы представляем FlowEdit, метод редактирования на основе текста для предварительно обученных моделей T2I потока, который не требует инверсии, оптимизации и является независимым от модели. Наш метод строит ОДУ, которая напрямую отображает между исходными и целевыми распределениями (соответствующими исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход инверсии. Это приводит к результатам, соответствующим современным стандартам, как мы иллюстрируем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.

Создание видео по демонстрации: Новый подход к генерации видео с помощью LLM

Мы исследуем новый опыт создания видео, а именно создание видео с помощью демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественно продолжается из контекстного изображения и выполняет концепции действий из демонстрации. Чтобы обеспечить эту возможность, мы представляем дельта-диффузию, подход к самонаблюдаемому обучению, который учится на недифференцированных видео путем прогнозирования будущих кадров. В отличие от большинства существующих контролей генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, которые необходимы для общих видео. Используя модель видео с основанием с дизайном бутылочного горлышка наверху, мы извлекаем латенты действий из демонстрационных видео для кондиционирования процесса генерации с минимальным утечкой внешнего вида. Эмпирически, дельта-диффузия превосходит сопутствующие базовые линии как по предпочтениям человека, так и по крупномасштабным машинным оценкам и демонстрирует потенциал для интерактивной симуляции мира. Примеры результатов генерации видео доступны по адресу https://delta-diffusion.github.io/.

StyleStudio: Текстово-ориентированный перенос стиля с выборочным контролем элементов стиля

Стиль передачи, основанный на тексте, направлен на слияние стиля эталонного изображения с содержанием, описанным текстовым запросом. Недавние достижения в моделях текст-к-изображению улучшили нюансы трансформации стиля, однако остаются значительные проблемы, особенно с переобучением на эталонных стилях, что ограничивает стилистический контроль и приводит к несоответствию с текстовым содержанием. В этой статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы вводим механизм кросс-модальной адаптивной инстанс-нормализации (AdaIN) для лучшей интеграции стилевых и текстовых характеристик, улучшая выравнивание. Во-вторых, мы разрабатываем подход, основанный на классификаторе без обучения стиля (SCFG), который позволяет избирательно контролировать стилистические элементы, уменьшая ненужные влияния. Наконец, мы интегрируем модель-учителя на ранних этапах генерации, чтобы стабилизировать пространственные макеты и смягчить артефакты. Наши обширные оценки демонстрируют значительные улучшения в качестве передачи стиля и согласованности с текстовыми запросами. Более того, наш подход может быть интегрирован в существующие фреймворки передачи стиля без дополнительной настройки.

Оценка и выравнивание CodeLLMs по человеческим предпочтениям

Код больших языковых моделей (codeLLMs) достиг значительных успехов в генерации кода. Большинство предыдущих оценок, связанных с кодом, которые состоят из различных программных упражнений вместе с соответствующими тестовыми случаями, используются как общая мера для оценки производительности и возможностей кодовых LLM. Однако современные кодовые LLM сосредотачиваются на синтезе правильного фрагмента кода, игнорируя согласование с предпочтениями человека, где запрос должен соответствовать практическим сценариям применения, а ответы, сгенерированные моделью, должны удовлетворять человеческим предпочтениям. Чтобы преодолеть разрыв между ответом, сгенерированным моделью, и человеческими предпочтениями, мы представляем строгую оценку, составленную людьми — CodeArena, чтобы смоделировать сложность и разнообразие реальных задач программирования, где 397 высококачественных образцов охватывают 40 категорий и 44 языков программирования, тщательно отобранных на основе запросов пользователей. Кроме того, мы предлагаем разнообразный синтетический корпус инструкций SynCode-Instruct (практически 20 миллиардов токенов), путем масштабирования инструкций с веб-сайта для проверки эффективности тонкой настройки с использованием синтетических инструкций в крупных масштабах, где Qwen2.5-SynCoder, полностью обученный на синтетических данных инструкций, может достичь выдающихся результатов среди открытых кодовых LLM. Результаты показывают различия в производительности между оценками на основе выполнения и CodeArena. Наши систематические эксперименты с CodeArena на более чем 40 LLM показывают заметный разрыв в производительности между открытыми SOTA кодовыми LLM (например, Qwen2.5-Coder) и частными LLM (например, OpenAI o1), подчеркивая важность согласования предпочтений человека.

Chimera: Улучшение универсальной модели с помощью специализированных экспертов

Недавние достижения в области крупных мультимодальных моделей (LMM) подчеркивают важность масштабирования за счет увеличения объема парных данных изображений и текста, что приводит к впечатляющим результатам в общих задачах. Несмотря на их эффективность в широких приложениях, общие модели в основном обучаются на датасетах веб-масштаба, доминирующих естественными изображениями, что приводит к жертве специализированными возможностями для задач, требующих обширных предварительных знаний в конкретной области. Более того, прямое интегрирование экспертных моделей, адаптированных для определенных областей, является сложной задачей из-за разрыва в представлении и дисбаланса оптимизации между общей моделью и экспертами. Чтобы решить эти проблемы, мы представляем Chimera, масштабируемый и недорогой мультимодальный конвейер, разработанный для повышения способности существующих LMM с помощью экспертов из конкретных областей. В частности, мы разрабатываем прогрессивную стратегию обучения для интеграции функций из экспертных моделей в ввод общей мультимодальной модели. Чтобы решить дисбаланс оптимизации, вызванный хорошо согласованным общим визуальным кодировщиком, мы вводим новый механизм сотрудничества между общими и специализированными моделями (GSCM). Это приводит к универсальной модели, которая превосходит по всем параметрам в областях графиков, таблиц, математики и документов, достигая состояния искусства в задачах мультимодального рассуждения и извлечения визуального содержания, обе из которых являются сложными задачами для оценки существующих LMM.

ILLUME: Инновационный подход к многомодальным языковым моделям

В этой статье мы представляем ILLUME, унифицированную многомодальную большую языковую модель (MLLM), которая бесшовно интегрирует возможности многомодального понимания и генерации в рамках одной большой языковой модели через унифицированную формулировку предсказания следующего токена. Чтобы решить проблему большого объема данных, который обычно требуется для сопоставления изображений и текста, мы предлагаем повысить эффективность данных за счет проектирования токенизатора изображения, который включает семантическую информацию, и прогрессивной многослойной процедуры обучения. Этот подход снижает объем данных до всего лишь 15 миллионов для предварительного обучения - более чем в четыре раза меньше, чем обычно требуется - при этом достигая конкурентоспособной или даже превосходной производительности по сравнению с существующими унифицированными MLLM, такими как Janus. Кроме того, чтобы способствовать синергетическому улучшению между возможностями понимания и генерации, что было недостаточно исследовано в предыдущих работах, мы вводим новую схему самоусиления многомодального сопоставления. Эта схема супервизирует MLLM, чтобы он мог самостоятельно оценить согласованность между текстовыми описаниями и самостоятельно сгенерированными изображениями, что помогает модели более точно интерпретировать изображения и избегать нереалистичных и некорректных предсказаний, вызванных несоответствием в генерации изображений. На основе широких экспериментов наша предложенная ILLUME выделяется и конкурирует с передовыми унифицированными MLLM и специализированными моделями по различным стандартам для многомодального понимания, генерации и редактирования.

EMOv2: Прорыв в легковесных моделях компьютерного зрения

Эта работа сосредоточена на разработке параметрически эффективных и легковесных моделей для плотных предсказаний, балансируя между параметрами, FLOPs и производительностью. Наша цель — установить новую границу легковесной модели величиной 5M на различных downstream задачах. Инвертированный residual блок (IRB) служит инфраструктурой для легковесных CNN, но аналогов с учетом внимания не было признано. Наша работа переосмысливает легковесную инфраструктуру эффективного IRB и практические компоненты в Transformer с единой точки зрения, расширяя основанный на CNN IRB для моделей, основанных на внимании, и абстрагируя один residual Meta Mobile Block (MMBlock) для проектирования легковесных моделей. Следуя аккуратным, но эффективным критериям проектирования, мы выводим современный улучшенный инвертированный residual мобильный блок (i2RMB) и улучшаем иерархическую эффективную модель (EMOv2) без сложных структур. Учитывая незаметную задержку для мобильных пользователей при загрузке моделей в сетях 4G/5G и обеспечивая производительность моделей, мы исследуем предельную производительность легковесных моделей с масштабом 5M. Обширные эксперименты по различным задачам распознавания образов, плотного предсказания и генерации изображений демонстрируют превосходство нашего EMOv2 над передовыми методами; например, EMOv2-1M/2M/5M достигает 72.3, 75.8 и 79.4 Top-1, что значительно превышает аналогичные CNN-/Attention-модели. В то же время EMOv2-5M, оснащенный RetinaNet, достигает 41.5 mAP для задач обнаружения объектов, что на +2.6 превышает предыдущий EMO-5M. При использовании более надежного рецепта обучения наш EMOv2-5M в конечном итоге достигает 82.9 Top-1 точности, что поднимает производительность моделей величиной 5M на новый уровень. Код доступен по адресу https://github.com/zhangzjn/EMOv2.

HARP: Улучшение производительности языковых моделей с помощью осведомленности о колебаниях и переосмысления

Эта работа нацелена на улучшение производительности больших языковых моделей, устраняя переменные вычислительные требования на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP — простую модификацию прямого прохода трансформеров "с полки". Опираясь на колебания и эффект кадрирования в процессе принятия решений, HARP избирательно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь в сложные моменты принятия решений и переформулируя ввод для получения другой перспективы. В отличие от других подходов, HARP является независимым от модели, не требует обучения и прост в реализации. Мы тщательно оцениваем наш метод по различным конечным задачам и размерам моделей, демонстрируя улучшения производительности до +5,16%. Примечательно, что HARP достигает этих успехов, сохраняя время вывода в два раза быстрее, чем метод «лестницы». Простой и в то же время приносящий значительные преимущества, HARP предлагает практическое решение для повышения производительности языковых моделей на основе трансформеров с минимальным вычислительным влиянием.

Мобильная Видео Диффузия: Оптимизация Моделей Для Мобильных Устройств

Модель видеодиффузии достигла впечатляющего реализма и управляемости, но ограничена высокими вычислительными затратами, что сдерживает её использование на мобильных устройствах. В данной статье представлена первая мобильная оптимизированная модель видеодиффузии. Начав с пространственно-временного UNet из Stable Video Diffusion (SVD), мы снижаем требования к памяти и вычислительным затратам, уменьшая разрешение кадров, внедряя многомасштабные временные представления и вводя две новые схемы обрезки для уменьшения числа каналов и временных блоков. Более того, мы применяем адаптивное тонкое обучение, чтобы сократить процесс денойзинга до одного шага. Наша модель, названная MobileVD, в 523 раза более эффективна (1817.2 против 4.34 TFLOPs) с незначительной потерей качества (FVD 149 против 171), генерируя латенты для клипа размером 14x512x256 пикселей за 1.7 секунды на Xiaomi-14 Pro. Наши результаты доступны на https://qualcomm-ai-research.github.io/mobile-video-diffusion/.

STIV: Масштабируемая генерация видео с учетом текста и изображений

Сфера генерации видео сделала замечательные успехи, однако существует настоятельная необходимость в четком, систематическом рецепте, который может направлять разработку надежных и масштабируемых моделей. В этой работе мы представляем всестороннее исследование, которое систематически изучает взаимосвязь архитектур моделей, рецептов обучения и стратегий кураторства данных, завершаясь простым и масштабируемым методом генерации видео, основанным на текстовых изображениях, названным STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадров, одновременно включая текстовое условие с помощью совместного классификатора на основе изображения и текста без управления. Этот дизайн позволяет STIV одновременно выполнять задачи генерации видео из текста (T2V) и генерации видео из текста и изображений (TI2V). Кроме того, STIV легко расширяется для различных приложений, таких как предсказание видео, интерполяция кадров, многослойная генерация и генерация длинных видео и т.д. Благодаря комплексным абляционным исследованиям T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на его простую структуру. Модель с 8.7B параметрами с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Модель такого же размера также достигает рекордного результата 90.1 на задаче VBench I2V с разрешением 512. Предлагая прозрачный и расширяемый рецепт для создания современных моделей генерации видео, мы стремимся поддержать будущие исследования и ускорить прогресс к более универсальным и надежным решениям в области генерации видео.

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

model3dtraining

Обучение больших языковых моделей для рассуждений в непрерывном латентном пространстве

Большие языковые модели (LLM) ограничены в рассуждениях в "языковом пространстве", где они обычно выражают процесс рассуждения с помощью цепочки мыслей (CoT) для решения сложной задачи рассуждения. Однако мы утверждаем, что языковое пространство может не всегда быть оптимальным для рассуждений. Например, большинство словесных токенов в первую очередь предназначены для текстовой логики и не являются необходимыми для рассуждения, в то время как некоторые критически важные токены требуют сложного планирования и представляют собой огромные проблемы для LLM. Чтобы исследовать потенциал рассуждений LLM в неограниченном скрытом пространстве вместо использования естественного языка, мы представляем новую парадигму Кокос (Цепочка Непрерывной Мысли). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывной мыслью"). Вместо того чтобы декодировать это в словесный токен, мы возвращаем его обратно в LLM в качестве последующего вложения ввода непосредственно в непрерывном пространстве. Эксперименты показывают, что Кокос может эффективно дополнять LLM в нескольких задачах рассуждения. Эта новая парадигма скрытого рассуждения приводит к возникновению продвинутых паттернов рассуждения: непрерывная мысль может кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо того чтобы преждевременно фиксироваться на одном детерминированном пути, как это делается в CoT. Кокос превосходит CoT в определенных задачах логического рассуждения, которые требуют значительного возврата во время планирования, с меньшим количеством токенов мыслей во время вывода. Эти результаты демонстрируют перспективность скрытого рассуждения и предлагают ценные идеи для будущих исследований.

Оптимизация слияния моделей: переработка для улучшения производительности

Слияние моделей показало большие перспективы в объединении экспертных моделей, но польза от слияния неясна при объединении "универсальных" моделей, обученных на многих задачах. Мы исследуем слияние в контексте больших моделей (примерно 100 миллиардов параметров), рециклируя контрольные точки, которые демонстрируют компромиссы между разными задачами. Такие контрольные точки часто создаются в процессе разработки передовой модели, и многие субоптимальные из них обычно отбрасываются. Учитывая пул контрольных точек моделей, полученных из разных тренировочных запусков (например, разные стадии, цели, гиперпараметры и смеси данных), которые естественным образом показывают компромиссы между различными языковыми способностями (например, выполнение инструкций против генерации кода), мы исследуем, может ли слияние переработать такие субоптимальные модели в парето-оптимальную. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, в результате чего получаются парето-оптимальные модели, которые превосходят как отдельные модели, так и базовые линии на основе слияния. Дальнейший анализ показывает, что хорошие слияния, как правило, включают почти все контрольные точки с ненулевыми весами, что указывает на то, что даже на вид плохие начальные контрольные точки могут способствовать хорошим финальным слияниям.

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

MAtCha Gaussians: Атлас Чартов для Высококачественной Геометрии и Фотореализма из Редких Взглядов

Мы представляем новую модель внешнего вида, которая одновременно реализует явное восстановление качественной 3D-сетчатой поверхности и фоторасистичную синтез нового вида из редких образцов вида. Наша ключевая идея заключается в том, чтобы смоделировать базовую геометрию сцены как Атлас Чартов, которые мы отображаем с помощью 2D-гауссовских серфелов (MAtCha Gaussians). MAtCha выделяет высокочастотные детали поверхности сцены из стандартного монокулярного оценщика глубины и уточняет их с помощью рендеринга гауссовских серфелов. Гауссовские серфелы прикрепляются к чартам на лету, удовлетворяя фоторасистичности нейронного объемного рендеринга и четкой геометрии модели сетки, то есть две, казалось бы, противоречащие цели в одной модели. В основе MAtCha лежит новая модель нейронной деформации и структура потерь, которая сохраняет мелкие детали поверхности, выделенные из изученных монокулярных глубин, и в то же время решает их фундаментальные масштабирующие неоднозначности. Результаты обширной экспериментальной валидации демонстрируют современное качество MAtCha в восстановлении поверхности и фоторасистичности на уровне лучших конкурентов, но с драматическим снижением количества входных видов и вычислительного времени. Мы считаем, что MAtCha станет основным инструментом для любого визуального приложения в области зрения, графики и робототехники, которые требуют явной геометрии в дополнение к фоторасистичности. Наша страница проекта следующая: https://anttwo.github.io/matcha/

LiFT: Использование человеческой обратной связи для выравнивания моделей текст-видео

Недавние достижения в генеративных моделях преобразования текста в видео (T2V) продемонстрировали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видео с человеческими предпочтениями (например, точного отражения текстовых описаний), что особенно трудно решить, поскольку человеческие предпочтения по своей природе субъективны и сложно формализуемы как объективные функции. Поэтому в статье предлагается метод тонкой настройки LiFT, использующий человеческую обратную связь для согласования моделей T2V. Конкретно, мы сначала создаем набор данных аннотации человеческой оценки, LiFT-HRA, состоящий из примерно 10 000 аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческой оценки, измеряя согласование между данными видео и ожиданиями человека. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V, максимизируя взвешенную по вознаграждению вероятность. В качестве примера мы применяем наш конвейер к CogVideoX-2B, показывая, что тонко настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал человеческой обратной связи в улучшении согласования и качества синтезированных видео.

OmniFlow: Унифицированная Модель Генерации для Любых Модальностей

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого типа, таких как текст-в-изображение, текст-в-аудио и синтез аудио-в-изображение. OmniFlow продвигает преобразование откорректированного потока (RF), использующееся в моделях текст-в-изображение, для обработки совместного распределения нескольких модальностей. Она превосходит предыдущие модели любого типа по широкому диапазону задач, таких как синтез текст-в-изображение и текст-в-аудио. Наша работа предлагает три ключевых вклада: во-первых, мы расширяем RF до многомодальной настройки и вводим новый механизм управления, позволяющий пользователям гибко контролировать выравнивание между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру MMDiT текста-в-изображение Stable Diffusion 3 и позволяет генерировать аудио и текст. Расширенные модули могут быть эффективно предобучены индивидуально и объединены с обычным текст-в-изображение MMDiT для дообучения. Наконец, мы проводим комплексное исследование по выбору дизайна трансформеров откорректированного потока для генерации аудио и текста в крупном масштабе, предоставляя ценные идеи по оптимизации производительности для различных модальностей. Код будет доступен на https://github.com/jacklishufan/OmniFlows.

MV-Adapter: Упрощение генерации многовидовых изображений

Существующие методы генерации многоточечных изображений часто вносят инвазивные изменения в предобученные модели текст-к-изображению (T2I) и требуют полного тонкой настройки, что приводит к (1) высоким вычислительным затратам, особенно при использовании крупных базовых моделей и изображений высокого разрешения, и (2) ухудшению качества изображения из-за трудностей оптимизации и нехватки высококачественных 3D-данных. В этой статье мы предлагаем первое решение на основе адаптера для генерации многоточечных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные без изменения оригинальной структуры сети или пространства признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет предварительные знания, встроенные в предобученные модели, уменьшая риски переобучения. Для эффективного моделирования 3D-геометрических знаний внутри адаптера мы вводим инновационные разработки, которые включают дублированные самовнимательные слои и параллельную архитектуру внимания, позволяя адаптеру наследовать мощные предпосылки предобученных моделей для моделирования новых 3D-знаний. Более того, мы представляем унифицированный кодировщик условий, который бесшовно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений, а также текстурирование. MV-Adapter достигает генерации многоточкового изображения с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Его также можно расширить для генерации произвольных видов, что позволяет более широкие приложения. Мы демонстрируем, что MV-Adapter устанавливает новый стандарт качества для генерации многоточковых изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

Оценка языковых моделей как генераторов синтетических данных: A GORA B ENCH

Учитывая растущее использование синтетических данных в языковых моделях (LM) после их обучения, способность LM генерировать высококачественные данные стала почти такой же важной, как и способность решать проблемы напрямую. В то время как предыдущие работы сосредоточились на разработке эффективных методов генерации данных, им не хватает систематического сравнения различных LM в качестве генераторов данных в единой обстановке. Чтобы устранить этот разрыв, мы предлагаем AgoraBench, стандартный тест, который предоставляет стандартизированные условия и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона учебных экземпляров с использованием 6 LM и обучения 99 моделей-студентов, мы выявляем ключевые идеи о возможностях генерации данных LM. Во-первых, мы наблюдаем, что LM демонстрируют различные сильные стороны. Например, GPT-4o превосходит в генерации новых проблем, в то время как Claude-3.5-Sonnet показывает лучшие результаты в улучшении существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого множество внутренних характеристик качества данных - включая качество ответа, перплексию и сложность инструкции - в совокупности служат лучшими индикаторами. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и осознанный выбор модели значительно влияют на эффективность генерации данных.

К универсальному пониманию футбольных видео

Как всемирно известный вид спорта, футбольный спорт привлек широкий интерес со стороны фанатов со всего мира. Цель данной работы — разработка комплексной мультимодальной структуры для понимания футбольных видео. В частности, мы делаем следующие вклады в эту работу: (i) мы представляем SoccerReplay-1988, крупнейший на сегодняшний день мультимодальный футбольный набор данных, который включает видео и подробные аннотации из 1,988 полных матчей с автоматизированным процессом аннотирования; (ii) мы представляем первую визуально-языковую базовую модель в области футбола, MatchVision, которая использует спatiotemporal информацию по футбольным видео и превосходит по различным последующим задачам; (iii) мы проводим обширные эксперименты и исследования абляции по классификации событий, генерации комментариев и многопозиционному распознаванию нарушений. MatchVision демонстрирует передовую производительность по всем этим аспектам, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы уверены, что эта работа предложит стандартную парадигму для исследований в области понимания спорта.

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.

LUMINET: Слияние Латентных Интринсиков и Моделей Диффузии для Переноса Освещения в Внутренних Сценах

Мы представляем LumiNet, новую архитектуру, которая использует генеративные модели и латентные внутренние представления для эффективной передачи освещения. Учитывая исходное изображение и изображение целевого освещения, LumiNet синтезирует пересвеченную версию исходной сцены, которая захватывает освещение цели. Наш подход делает два ключевых вклада: стратегию кураторства данных на основе модели повторного освещения StyleGAN для нашего обучения и модифицированный ControlNet на основе диффузии, который обрабатывает как латентные внутренние свойства исходного изображения, так и латентные экстраинтерные свойства целевого изображения. Мы дополнительно улучшаем передачу освещения с помощью обученного адаптера (MLP), который вводит латентные экстраинтерные свойства цели через кросс-внимание и донастройку. В отличие от традиционного ControlNet, который генерирует изображения с условными картами из одной сцены, LumiNet обрабатывает латентные представления из двух разных изображений - сохраняя геометрию и альбедо из источника, в то время как передает характеристики освещения из цели. Эксперименты показывают, что наш метод успешно передает сложные феномены освещения, включая бликовые отражения и непрямое освещение, по сценам с различной пространственной компоновкой и материалами, превосходя существующие подходы на сложных внутренних сценах, используя только изображения в качестве входных данных.

PaliGemma 2: Семейство универсальных VLM для переноса

PaliGemma 2 является обновлением открытой модели языка и зрения (VLM) PaliGemma, основанной на семействе языковых моделей Gemma 2. Мы комбинируем визуальный кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы обеспечить их широкими знаниями для передачи через дообучение. В результате получается семья базовых моделей, охватывающая разные размеры моделей и разрешения, что позволяет нам исследовать факторы, влияющие на эффективность передачи (такие как скорость обучения), и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и разнообразие задач передачи за пределами PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблицы, распознавание молекулярной структуры, распознавание музыкальных партитур, а также длительное детализированное аннотирование и генерацию рентгеновских отчетов, по которым PaliGemma 2 достигает результатов на уровне передовых технологий.

Награды процесса без меток процесса: новые горизонты в обучении моделей вознаграждения

В отличие от моделей наград результатов (ORM), которые оценивают все ответы, модель награды процесса (PRM) оценивает аргументацию шаг за шагом, предоставляя более плотные и детализированные вознаграждения. Однако обучение PRM требует меток, аннотированных на каждом промежуточном этапе, что создает значительные проблемы как для ручного, так и для автоматического сбора данных. Эта статья нацелена на решение этой проблемы. Как теоретически, так и эмпирически мы показываем, что неявный PRM может быть получен без дополнительных затрат, просто обучая ORM на более дешевых метках уровня ответа. Единственное предположение заключается в параметризации результата награды как логарифма отношения правдоподобия моделей политики и эталона, которые могут быть оптимизированы независимо от конкретного выбора целей потерь. В экспериментах мы реализуем наши неявные PRM с различными целями и оцениваем их производительность на MATH. Мы показываем, что наш неявный PRM превосходит сильную базовую линию на основе MCTS 'а-ля Math-Shepherd, используя менее 1/38 данных для обучения. Его производительность можно дополнительно улучшить с помощью голосования большинством. Мы также выяснили, что увеличение масштабов инструкций и ответов приносит выгоду нашему неявному PRM, при этом последнее дает больший прирост. В частности, мы обнаружили, что наш неявный PRM, когда он реализован с потерей кросс-энтропии (CE), более эффективен с точки зрения данных и может продолжать улучшать модели генерации, даже когда обучен только с одним ответом на инструкцию, что привносит крайний дефицит и дисбаланс данных. Кроме того, инструкции должны быть актуальны для последующих задач, в то время как разнообразие ответов не приносит выгоды. Удивительно, но обучение на дополнительных метках шагов Math-Shepherd не приносит дальнейших улучшений нашему неявному PRM, обученному только на данных результата. Мы надеемся, что наша работа побудит пересмотреть подходы к обучению PRM и поможет сделать обучение PRM более доступным.

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

GATE OpenING: Обширный Бенчмарк для Оценки Генерации Интерливированных Изображений и Текста

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах визуального понимания и генерации. Тем не менее, генерация чередующегося контента из изображений и текста продолжает оставаться проблемой, требующей интегрированных мультимодальных способностей понимания и генерации. Хотя прогресс в унифицированных моделях предлагает новые решения, существующие оценки недостаточны для оценки этих методов из-за ограничений по размеру и разнообразию данных. Чтобы устранить этот разрыв, мы представляем GATE OpenING (OpenING), всестороннюю оценку, состоящую из 5400 высококачественных экземпляров с человеческими аннотациями по 56 реальным задачам. OpenING охватывает разнообразные повседневные сценарии, такие как туристические путеводители, дизайн и мозговой штурм, предлагая надежную платформу для сложных методов чередующейся генерации. Кроме того, мы представляем IntJudge, модель оценивания для оценки открытых мультимодальных методов генерации. Обучая по новому подходу к данным, наша IntJudge достигает уровня согласия 82,42% с человеческими оценками, превосходя оценщики на базе GPT на 11,34%. Обширные эксперименты на OpenING показывают, что текущие методы чередующейся генерации все еще имеют значительный потенциал для улучшения. Ключевые результаты по чередующейся генерации изображения и текста дополнительно представлены для руководства в разработке моделей следующего поколения. OpenING является open-source на https://opening.github.io.

Open-Sora Plan: Новый Подход к Генерации Видео

Мы представляем проект Open-Sora Plan, проект с открытым исходным кодом, который стремится внести большую модель генерации для создания желаемых видео в высоком разрешении длительностью основываясь на различных входных данных пользователя. Наш проект состоит из нескольких компонентов для всего процесса генерации видео, включая вариационный автокодер Wavelet-Flow, совместный денойзер изображений и видео Skiparse, а также различные контроллеры условий. Более того, разработаны множество вспомогательных стратегий для эффективного обучения и вывода, и предложен многоуровневый конвейер обработки данных для получения желаемых данных высокого качества. Благодаря эффективным идеям, наш проект Open-Sora Plan достигает впечатляющих результатов генерации видео как в качественных, так и в количественных оценках. Мы надеемся, что наш тщательный дизайн и практический опыт смогут вдохновить сообщество исследователей генерации видео. Все наши коды и веса модели доступны для публики по адресу https://github.com/PKU-YuanGroup/Open-Sora-Plan.

O1-CODER: Новый Подход к Кодированию с Использованием RL и MCTS

Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 OpenAI с акцентом на задачи кодирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло дерево решений (MCTS) для улучшения способностей мышления модели системы-2. В рамках включает обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, используя MCTS для генерации данных кода с процессами рассуждения, и итеративную донастройку модели политики, чтобы первоначально создавать псевдокод, за которым следует генерация полного кода. Отчет также рассматривает возможности и вызовы в развертывании моделей, подобных o1, в реальных приложениях, предлагая переход на парадигму системы-2 и подчеркивая необходимость обновления состояния среды. Обновленный прогресс модели и экспериментальные результаты будут представлены в следующих версиях. Весь исходный код, курируемые наборы данных, а также полученные модели будут раскрыты на https://github.com/ADaM-BJTU/O1-CODER.

FLOAT: Генерация видео с говорящим портретом на основе аудио

С быстрым развитием генеративных моделей на основе диффузии анимация портретных изображений достигла замечательных результатов. Однако она все еще сталкивается с проблемами, связанными с временной согласованностью генерации видео и быстрой выборкой из-за своей итеративной природы выборки. В этой статье представлено FLOAT, метод генерации видео говорящих портретов, основанный на генеративной модели сопоставления потоков, управляемой аудио. Мы перенесли генеративное моделирование из латентного пространства, основанного на пикселях, в изученное латентное пространство движений, что позволяет эффективно проектировать временно согласованное движение. Для достижения этой цели мы вводим предсказатель векторного поля на основе трансформеров с простым, но эффективным механизмом условной обработки кадров. Кроме того, наш метод поддерживает усиление эмоций, управляемое речью, что позволяет естественно интегрировать выразительные движения. Обширные эксперименты показывают, что наш метод превосходит современные методы генерации говорящих портретов на основе аудио по визуальному качеству, точности движения и эффективности.

Генерация длинных видео с помощью диффузионных моделей: Применение сегментированного кросс-аттеншна и кураторство данных

Мы представляем Presto, новую модель диффузии видео, предназначенную для генерации 15-секундных видео с долгосрочной связностью и богатым содержанием. Расширение методов генерации видео для поддержания разнообразия сцен в течение длительных периодов времени представляет собой значительные проблемы. Чтобы решить эту задачу, мы предлагаем стратегию сегментированного перекрестного внимания (SCA), которая разбивает скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно обращать внимание на соответствующую подсказку. SCA не требует дополнительных параметров, что позволяет бесшовно интегрировать ее в современные архитектуры на основе DiT. Для обеспечения высококачественной генерации длинного видео мы создаем набор данных LongTake-HD, состоящий из 261 тысячи богатых содержанием видео с последовательной связностью сцен, аннотированных общей видеоподсказкой и пятью прогрессивными подсказками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по динамическому уровню, что превышает существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает богатство содержания, поддерживает долгосрочную связность и фиксирует сложные текстовые детали. Более подробную информацию можно найти на нашей странице проекта: https://presto-video.github.io/.

Усовершенствование рендеринга текста с помощью самплера Overshooting

Достижение точного соответствия между текстовыми инструкциями и сгенерированными изображениями в генерации из текста в изображение является значительной проблемой, особенно при отображении написанного текста в изображениях. Современные модели, такие как Stable Diffusion 3 (SD3), Flux и AuraFlow, все еще испытывают трудности с точным отображением текста, что приводит к опечаткам или несоответствующему тексту. Мы представляем метод без обучения с минимальными вычислительными затратами, который значительно улучшает качество рендеринга текста. В частности, мы представляем выбросной сэмплер для предварительно обученных моделей исправленного потока (RF), чередуя чрезмерное моделирование изученного обычного дифференциального уравнения (ODE) и повторное введение шума. По сравнению с сэмплером Эйлера, выбросной сэмплер эффективно вводит дополнительный член динамики Ланжевена, который может помочь исправить накопительную ошибку от последовательных шагов Эйлера и, таким образом, улучшить рендеринг текста. Однако, когда сила выброса высокая, мы наблюдаем артефакты чрезмерного сглаживания на сгенерированных изображениях. Чтобы решить эту проблему, мы предлагаем сэмплер с контролем внимания (AMO), который адаптивно контролирует силу выброса для каждого участка изображения в зависимости от их оценки внимания к текстовому содержимому. AMO демонстрирует улучшение точности рендеринга текста на 32,3% и 35,9% на SD3 и Flux без ухудшения общего качества изображения или увеличения стоимости вывода.

Искусство без искусства: Генерация художественных изображений без предварительных знаний о графическом искусстве

Мы изучаем вопрос: «Сколько знаний о предшествующем искусстве необходимо для создания искусства?» Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы вводим простой, но эффективный метод обучения адаптера искусства, используя только несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с помощью нашего метода, воспринимается пользователями как сопоставимое с искусством,produced models trained on large, art-rich datasets. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры как художественных, так и не художественных наборов данных способствовали созданию новых художественных стилей.

TeaCache: Ускорение Моделей Диффузии Видео

Как фундаментальная основа для генерации видео, модели диффузии сталкиваются с проблемой низкой скорости вывода из-за последовательного характера денойзинга. Предыдущие методы ускоряют модели, кэшируя и повторно используя выходные данные модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходными данными модели неравномерны на временных шагах, что затрудняет выбор соответствующих выходных данных модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В этом исследовании мы представляем Кэш, учитывающий встроения временных шагов (TeaCache), свободный от обучения подход кэширования, который оценивает и использует колеблющиеся различия между выходными данными модели на временных шагах. Вместо того чтобы напрямую использовать временные выходные данные модели, TeaCache сосредотачивается на входных данных модели, которые имеют сильную корреляцию с выходными данными модели, не имея при этом значительных вычислительных затрат. Сначала TeaCache модулирует шумные входные данные, используя встраивания временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходных данных модели. Затем TeaCache вводит стратегию переоценки для уточнения оцененных различий и использует их для указания кэширования выходных данных. Эксперименты показывают, что TeaCache достигает до 4,41x ускорения по сравнению с Open-Sora-Plan при незначительном (-0,07% Vbench score) ухудшении качества изображения.

RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока

Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

Yi-Lightning: Новый Флагманский Модель Языка

Этот технический отчет представляет Yi-Lightning, нашу последнюю флагманскую модель большого языка (LLM). Она демонстрирует исключительную производительность, занимая 6-е место в общем зачете на Chatbot Arena, с особенно сильными результатами (2-е по 4-е места) в специализированных категориях, включая китайский, математику, программирование и сложные подсказки. Yi-Lightning использует улучшенную архитектуру Mixture-of-Experts (MoE), которая включает в себя передовую сегментацию экспертов и механизмы маршрутизации в сочетании с оптимизированными методами кэширования KV. Наш процесс разработки охватывает комплексное предварительное обучение, контрольное дообучение (SFT) и обучение с подкреплением на основе обратной связи от людей (RLHF), где мы разрабатываем целенаправленные стратегии для многоэтапного обучения, синтетического создания данных и моделирования наград. Более того, мы реализуем RAISE (Responsible AI Safety Engine), четырехкомпонентную структуру для решения проблем безопасности на этапах предварительного обучения, после обучения и обслуживания. Обладая нашей масштабируемой суперкомпьютерной инфраструктурой, все эти инновации существенно снижают затраты на обучение, развертывание и вывод результатов, при этом поддерживая высокие стандарты производительности. С дальнейшими оценками на общедоступных академических критериях, Yi-Lightning демонстрирует конкурентоспособные результаты по сравнению с топовыми LLM, в то время как мы наблюдаем значительное несоответствие между традиционными, статическими результатами бенчмарков и динамичными человеческими предпочтениями в реальном мире. Это наблюдение побуждает к критической переоценке полезности традиционных бенчмарков в руководстве по разработке более умных и мощных AI-систем для практических приложений. Yi-Lightning теперь доступен через нашу платформу разработчика на https://platform.lingyiwanwu.com.

UniPose: Единная мультимодальная структура для понимания, генерации и редактирования человеческой позы

Человеческая поза играет решающую роль в цифровую эпоху. Хотя недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и функционируют в изоляции, что ограничивает их применение в реальных сценариях. В этой статье представлена UniPose, структура, использующая большие языковые модели (LLMs) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D-позы SMPL. Конкретно, мы применяем токенизатор поз, чтобы преобразовать 3D-позы в дискретные токены поз, что позволяет бесшовную интеграцию в LLM в рамках единого словаря. Чтобы дополнительно улучшить возможности точного восприятия позы, мы оснастили UniPose смесью визуальных кодеров, среди которых специальный визуальный кодер для поз. Пользуясь единой стратегией обучения, UniPose эффективно передает знания между различными задачами, связанными с позами, адаптируется к невиданным задачам и демонстрирует расширенные возможности. Эта работа является первой попыткой создать универсальную структуру для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособные и даже превосходящие показатели UniPose в различных задачах, связанных с позами.

CAT4D: Создание 4D-сцен с помощью многослойных видео-диффузионных моделей

Мы представляем CAT4D, метод создания 4D (динамических 3D) сцен из монохромного видео. CAT4D использует многопрофильную модель диффузии видео, обученную на разнообразных комбинациях датасетов, чтобы обеспечить новаторскую синтезу видов при любых заданных позах камеры и временных метках. В сочетании с новым подходом к выборке эта модель может преобразовать одно монохромное видео в многопрофильное видео, обеспечивая надежную 4D-реконструкцию через оптимизацию деформируемого 3D-гауссовского представления. Мы показываем конкурентоспособные результаты на бенчмарках синтеза новых видов и рекonstrukции динамических сцен, а также подчеркиваем творческие возможности генерации 4D-сцен из реальных или сгенерированных видео. Смотрите нашу страницу проекта для результатов и интерактивных демонстраций: cat-4d.github.io.

Диффузионная самодистилляция для нулевого кастомизированного генерации изображений

Модели диффузии текста в изображение демонстрируют впечатляющие результаты, но являются неудовлетворительными инструментами для художников, которые стремятся к тонкому контролю. Например, обычный случай использования заключается в создании изображений конкретного экземпляра в новых контекстах, т.е. в "генерации с сохранением идентичности". Эта обстановка, наряду с многими другими задачами (например, повторное освещение), естественно подходит для условных генеративных моделей на основе изображения и текста. Однако существует недостаток данных высокого качества для обучения такой модели напрямую. Мы предлагаем самодистилляцию диффузии, метод использования предобученной модели текста в изображение для генерации собственного набора данных для задач преобразования изображения в изображение с учетом текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и кураторства большого связанного набора данных с помощью визуально-языковой модели. Затем мы дообучаем модель текста в изображение до модели текста+изображение в изображение, используя кураторский связанный набор данных. Мы демонстрируем, что самодистилляция диффузии превосходит существующие методы нулевого обучения и конкурентоспособна с техниками тонкой настройки на основе экземпляров по широкому спектру задач сохранения идентичности, не требуя оптимизации во время тестирования.

Адаптивное слепое универсальное восстановление изображений (ABAIR)

Слепые универсальные модели восстановления изображений направлены на восстановление высококачественного изображения из входных данных, испорченных неизвестными искажениями. Однако эти модели требуют, чтобы все возможные типы заболеваний были определены на этапе обучения, при этом демонстрируя ограниченную обобщаемость для невидимых ухудшений, что ограничивает их практическое применение в сложных случаях. В данной статье мы предлагаем простую, но эффективную адаптивную слепую универсальную модель восстановления (ABAIR), которая может устранять несколько деградаций, хорошо обобщается на невидимые деградации и эффективно включает новые деградации путем обучения небольшой доли параметров. Во-первых, мы обучаем нашу базовую модель на большом наборе данных естественных изображений с несколькими синтетическими деградациями, дополненными сегментационной головой для оценки типов деградации на пиксельном уровне, в результате чего получается мощный каркас, способный обобщаться на широкий спектр деградаций. Во-вторых, мы адаптируем нашу базовую модель к различным задачам восстановления изображений, используя независимые адаптеры с низким рангом. В-третьих, мы обучаемся адаптивно комбинировать адаптеры для универсальных изображений через гибкого и легковесного оценщика деградации. Наша модель мощна в обработке специфических искажений и гибка в адаптации к сложным задачам; она не только значительно превосходит достижения наивысшего уровня в настройках восстановления изображений с пятью и тремя задачами, но и демонстрирует улучшенную обобщаемость для невидимых деградаций, а также составных искажений.

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

SALOVA: Segment-Augmented Long Video Assistant для целенаправленного извлечения и маршрутизации в анализе длинных видео

Несмотря на достижения в области крупных мультимодальных моделей, их применение к длинному и неотредактированному видеоконтенту остается сложной задачей из-за ограничений в длине контекста и значительных затрат памяти. Эти ограничения часто приводят к значительной потере информации и снижению релевантности ответов модели. С экспоненциальным ростом видеоданных на веб-платформах, понимание длинных видео становится ключевым для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую платформу видео-LLM, разработанную для улучшения понимания длинного видеоконтента через целенаправленный процесс извлечения информации. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, содержащий 87.8 тысяч высококачественных длинных видео, каждое из которых подробно описано на уровне сегментов, что позволяет моделям захватывать непрерывность сцен и поддерживать богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные решения, интегрирующие механизм динамической маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки релевантных видеосегментов на основе запросов пользователей. Наша платформа преодолевает ограничения текущих видео-LMMs, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную релевантность генерируемых ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность обрабатывать сложные длинные видео, показывая значительную способность сохранять контекстуальную целостность на протяжении длительных последовательностей.

Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

Разработка графических интерфейсов пользователя (GUI) для помощников обещает значительные перспективы для повышения продуктивности рабочих процессов человека. Хотя большинство агентов основаны на языковых технологиях и используют закрытые API с богатой текстовой мета-информацией (например, HTML или дерево доступности), они проявляют ограничения в восприятии визуалов интерфейса так, как это делают люди, что подчеркивает необходимость в агентах, способных визуально воспринимать GUI. В данной работе мы разрабатываем модель видео-языковых действий в цифровом мире, называемую ShowUI, которая включает следующие инновации: (i) Выбор визуальных токенов, руководимый UI, для снижения вычислительных затрат путем формулирования скриншотов в виде связанного графа UI, адаптивно выявляя их избыточные отношения и используя их в качестве критериев для выбора токенов в блоках само-внимания; (ii) Потоковое смешивание видео, языка и действий, которое гибко объединяет разнообразные потребности в задачах GUI, позволяя эффективно управлять историей визуальных действий при навигации или сопоставлении последовательностей запросов-действий на каждый скриншот для повышения эффективности обучения; (iii) Создание малых, но качественных наборов данных с инструкциями для GUI путем тщательного отбора данных и применения стратегии пересэмплирования для решения проблемы значительного дисбаланса типов данных. С помощью вышеперечисленных компонентов, ShowUI, легковесная модель на 2 миллиарда параметров, использующая 256K данных, достигает высокой точности в 75.1% при нулевом тестировании на привязке к скриншотам. Ее выбор токенов, руководимый UI, дополнительно сокращает на 33% избыточные визуальные токены во время обучения и ускоряет производительность в 1.4 раза. Эксперименты по навигации в средах web Mind2Web, мобильного AITW и онлайн MiniWob подчеркивают эффективность и потенциал нашей модели для развития визуальных агентов GUI. Модели доступны по адресу https://github.com/showlab/ShowUI.

SketchAgent: Language-Driven Sequential Sketch Generation

Эскизирование служит универсальным инструментом для внешнего выражения идей, позволяя быстро исследовать и визуально коммуницировать через различные дисциплины. Хотя искусственные системы привели к значительным достижениям в создании контента и взаимодействии человека с компьютером, задача по захвату динамичной и абстрактной природы человеческих эскизов остается сложной. В данной работе мы представляем SketchAgent — метод генерации последовательных эскизов, управляемый языком, который позволяет пользователям создавать, изменять и уточнять эскизы через динамичные, разговорные взаимодействия. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и богатые предварительные знания готовых мультимодальных крупных языковых моделей (LLM). Мы представляем интуитивно понятный язык эскизирования, который вводится в модель через примеры в контексте, позволяя ей "рисовать" с помощью строковых действий. Эти действия преобразуются в векторную графику и затем отображаются для создания эскиза на пиксельном холсте, который можно снова использовать для дальнейших задач. Рисуя мазок за мазком, наш агент улавливает развивающиеся, динамичные качества, присущие эскизированию. Мы демонстрируем, что SketchAgent способен генерировать эскизы из разнообразных запросов, участвовать в диалоговом рисовании и значимо сотрудничать с пользователями.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность благодаря более глубокому рассуждению, эволюционируя от подсказок в цепочке мыслей к решениям уровня продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, данные высокого качества для долгосрочного рассуждения и оптимизированные обучающие конвейеры все еще недостаточно исследованы в задачах, связанных с обработкой изображений и языка. В этой статье мы представляем Insight-V, раннюю попытку 1) масштабно создавать длинные и надежные данные для рассуждения для сложных мультимодальных задач и 2) эффективный обучающий конвейер для улучшения способностей рассуждения многоязыковых больших языковых моделей (MLLM). В частности, для создания длинных и структурированных данных рассуждения без человеческого труда мы разработали двухэтапный конвейер с прогрессивной стратегией, чтобы генерировать достаточно длинные и разнообразные пути рассуждений, а также метод многоуровневой оценки для обеспечения качества данных. Мы заметили, что непосредственное обучение MLLM с такими длинными и сложными данными рассуждения не приводит к идеальным способностям рассуждения. Для решения этой проблемы мы разработали мультиагентную систему, состоящую из агента рассуждения, специализирующегося на выполнении долгосрочных рассуждений, и агента сводки, обученного оценивать и обобщать результаты рассуждений. Мы также внедрили итерационный алгоритм DPO для повышения стабильности и качества генерации рассуждений агентом. На основе популярной модели LLaVA-NeXT и нашего более мощного базового MLLM мы демонстрируем значительное улучшение производительности по сложным мультимодальным бенчмаркам, требующим визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также может легко поддерживать или улучшать производительность в задачах, ориентированных на восприятие мультимодальных данных.

Погружение в 3D: Открытие новых горизонтов с DiffusionGS

Существующие методы преобразования изображений в 3D с прямым распространением в основном опираются на 2D многовидовые модели диффузии, которые не могут гарантировать 3D согласованность. Эти методы легко терпят неудачу при изменении направления обзора и в основном обрабатывают изображения, ориентированные на объект. В данной статье мы предлагаем новую одностадийную модель диффузии 3D, DiffusionGS, для генерации объектов и сцен из одного вида. DiffusionGS непосредственно выводит 3D облака гауссовых точек на каждом временном шаге для обеспечения согласованности вида и позволяет модели генерировать устойчиво к изменениям в заданных видах на любом направлении, выходя за рамки входных данных, ориентированных на объект. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем 3D тренировочных данных, разрабатывая стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обеспечивает лучшее качество генерации (на 2,20 дБ выше по PSNR и на 23,25 ниже по FID) и более чем в 5 раз быстрее (~6 секунд на GPU A100) по сравнению с методами SOTA. Исследование пользователей и приложения для преобразования текста в 3D также выявляют практическую ценность нашего метода. Наша страница проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ демонстрирует видео и интерактивные результаты генерации.

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

Модельные агенты для навигации по веб-сайтам: Использование LLM в качестве моделей мира

Агенты языка продемонстрировали перспективные возможности в автоматизации веб-задач, хотя их текущие реактивные подходы все еще значительно уступают человеческим способностям. Включение в процесс продвинутых алгоритмов планирования, особенно методов поиска по дереву, может улучшить работу этих агентов, однако непосредственное применение поиска по дереву на живых веб-сайтах представляет значительные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В этой статье мы представляем новый парадигм, который дополняет языковых агентов планированием на основе модели, пионерски используя большие языковые модели (LLMs) в качестве моделей мира в сложных веб-окружениях. Наш метод, WebDreamer, опирается на ключевое понимание того, что LLM по своей природе кодируют всесторонние знания о структурах и функциях веб-сайтов. В частности, WebDreamer использует LLM для моделирования результатов для каждого возможного действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, и затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух репрезентативных бенчмарках для веб-агентов с онлайн-взаимодействием — VisualWebArena и Mind2Web-live — демонстрируют, что WebDreamer достигает значительных улучшений по сравнению с реактивными базовыми линиями. Устанавливая жизнеспособность LLM как моделей мира в веб-окружениях, эта работа закладывает основу для сдвига парадигмы в автоматизированном веб-взаимодействии. Более широко, наши результаты открывают захватывающие новые направления для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) планирования на основе модели для языковых агентов.

VideoAutoArena: Автоматизированная арена для оценки крупномасштабных мультимодальных моделей в анализе видео через симуляцию пользователя

Большие мультимодальные модели (LMMs) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок опирается на традиционные методы, такие как вопросы с выбором ответа в тестах, например, VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для отражения сложных требований реальных пользователей. Чтобы устранить это ограничение — и учитывая высокую стоимость и медленный темп человеческой аннотации для задач с видео — мы представляем VideoAutoArena, арена-стиль бенчмарка, вдохновленного фреймворком LMSYS Chatbot Arena, предназначенным для автоматической оценки способностей LMMs к анализу видео. VideoAutoArena использует симуляцию пользователя для генерации открытых, адаптивных вопросов, которые тщательно оценивают производительность моделей в понимании видео. Бенчмарк включает автоматизированную, масштабируемую систему оценки, интегрирующую модифицированную систему рейтинга Эло для справедливых и непрерывных сравнений между различными LMMs. Для проверки нашей автоматической системы судейства мы создаем «золотой стандарт», используя тщательно отобранный подмножество человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению при сохранении масштабируемости. Кроме того, мы вводим стратегию эволюции, основанную на ошибках, постепенно усложняя вопросы, чтобы подтолкнуть модели к работе с более сложными сценариями анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает передовые LMMs, предоставляя инсайты в сильные стороны моделей и области для улучшения. Для дальнейшей оптимизации нашей оценки мы представляем VideoAutoBench в качестве вспомогательного бенчмарка, где человеческие аннотаторы определяют победителей в подмножестве сражений VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими проверенными человеческими ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономически эффективную и масштабируемую систему для оценки LMMs в анализе видео, ориентированном на пользователя.

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

Исследование роли "Конституций" для обучения на обратной связи ИИ

Развивающиеся возможности больших языковых моделей (LLM) привели к их использованию в качестве замены человеческой обратной связи для обучения и оценки других LLM. Эти методы часто опираются на «конституции», письменные руководства, которые модель критика использует для предоставления обратной связи и улучшения генераций. Мы исследуем, как выбор конституции влияет на качество обратной связи, используя четыре разные конституции для улучшения пациент-ориентированного общения на медицинских собеседованиях. В парных сравнениях, проведённых 215 оценщиками, мы обнаружили, что подробные конституции приводят к лучшим результатам в отношении эмоциональных качеств. Однако ни одна из конституций не превзошла базовый уровень в обучении более практически ориентированным навыкам, связанным с сбором и предоставлением информации. Наши выводы показывают, что, хотя следует отдавать предпочтение подробным конституциям, существуют возможные ограничения эффективности обратной связи AI как сигнала вознаграждения в определённых областях.

BlueLM-V-3B: Алгоритм и системный дизайн для мультимодальных крупных языковых моделей на мобильных устройствах

Вот перевод текста на русский язык: --- Появление и растущая популярность мультимодальных крупных языковых моделей (MLLMs) обладают значительным потенциалом для улучшения различных аспектов повседневной жизни, от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые спутники повседневной жизни, представляют собой самую эффективную и доступную платформу для развертывания MLLMs, обеспечивая их бесшовную интеграцию в повседневные задачи. Однако развертывание MLLMs на мобильных телефонах представляет собой вызовы из-за ограничений в размере памяти и вычислительных возможностях, что затрудняет достижение плавной и реального времени обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, подход к совместному проектированию алгоритма и системы, специально адаптированный для эффективного развертывания MLLMs на мобильных платформах. В частности, мы перерабатываем схему динамического разрешения, принятую в основных MLLMs, и реализуем системную оптимизацию для развертывания с учетом аппаратных особенностей для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B выделяется следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиардами параметров и визуальный энкодер с 400 миллионами параметров. (2) Высокая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достигла наивысшего среднего балла 66,1 на бенчмарке OpenCompass среди моделей с параметрами ≤ 4B и превзошла серию моделей с гораздо большим размером параметров (например, MiniCPM-V-2.6, InternVL2-8B).

Рассвет GUI-агентов: Предварительное исследование с использованием Claude 3.5 Computer Use

Вот перевод текста на русский язык: --- Недавно выпущенная модель, Claude 3.5 Computer Use, выделяется как первая модель искусственного интеллекта на передовой, предоставляющая возможность использования компьютера в публичной бета-версии в качестве агента графического интерфейса пользователя (GUI). Будучи ранней бета-версией, её способность функционировать в реальном и сложном мире остается неизведанной. В рамках данного кейс-стади для исследования возможностей Claude 3.5 Computer Use, мы собрали и организовали набор тщательно разработанных задач, охватывающих различные области и программное обеспечение. Наблюдения из этих случаев демонстрируют беспрецедентную способность Claude 3.5 Computer Use к преобразованию языка в действия на рабочем столе от начала до конца. Вместе с этим исследованием мы предоставляем готовую к использованию платформу агента для развертывания моделей автоматизации GUI на основе API с легкостью внедрения. Наши кейс-стади направлены на демонстрацию основных возможностей и ограничений Claude 3.5 Computer Use с детальным анализом, а также на выявление вопросов, связанных с планированием, действием и критикой, которые необходимо учитывать для будущего улучшения. Мы надеемся, что это предварительное исследование вдохновит будущие исследования в сообществе агентов GUI. Все тестовые случаи, описанные в статье, можно попробовать через проект: https://github.com/showlab/computer_use_ootb.

LLaVA-o1: Пошаговое рассуждение для моделей видео-языка

Крупные языковые модели продемонстрировали значительные достижения в области способностей к рассуждению, особенно благодаря масштабированию в момент вывода, как это показано на примерах моделей, таких как o1 от OpenAI. Однако, текущие модели визуально-языкового взаимодействия (VLMs) часто сталкиваются с трудностями при выполнении систематического и структурированного рассуждения, особенно при работе с сложными задачами ответов на визуальные вопросы. В данной работе мы представляем LLaVA-o1, новую VLM, разработанную для проведения автономного многоступенчатого рассуждения. В отличие от подхода с цепочкой мыслей, LLaVA-o1 самостоятельно участвует в последовательных этапах: суммаризации, визуальной интерпретации, логического рассуждения и генерации выводов. Этот структурированный подход позволяет LLaVA-o1 достигать значительных улучшений в точности на задачах, требующих интенсивного рассуждения. Для этого мы собрали набор данных LLaVA-o1-100k, интегрировав образцы из различных источников визуального ответного взаимодействия и предоставив аннотации структурированного рассуждения. Кроме того, мы предлагаем метод поискового луча на уровне этапов в момент вывода, который обеспечивает эффективное масштабирование в момент вывода. Удивительно, но с всего лишь 100 тыс. обучающих образцов и простым, но эффективным методом масштабирования в момент вывода, LLaVA-o1 не только превосходит свою базовую модель на 8.9% по широкому спектру мультимодальных задач рассуждения, но и превосходит производительность более крупных и даже закрытых моделей, таких как Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.

Xmodel-1.5: Развитие мультиязычного ИИ

Мы представляем Xmodel-1.5, новую многоязычную модель с 1 миллиардом параметров, предварительно обученную на примерно 2 триллионах токенов. Модель демонстрирует высокую производительность на нескольких языках, с особенно заметными результатами на тайском, арабском и французском языках, наряду с её эффективностью на китайском и английском. Кроме того, мы вносим вклад в научное сообщество, выпуская тайский оценочный набор данных, который включает сотни вопросов, аннотированных студентами Школы интегрированных инноваций Чулалонгкорнского университета. Хотя результаты обнадеживают, мы признаем, что есть еще простор для улучшений. Мы надеемся, что эта работа продвинет текущие усилия в исследованиях многоязычного ИИ и будет способствовать лучшему межъязыковому пониманию в различных задачах обработки естественного языка. Наши модели и код доступны в открытом доступе на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.

Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, но все еще испытывают трудности с рассуждением на основе длинных контекстов. Существующие подходы обычно включают дообучение LLM с использованием синтетических данных, что зависит от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, тем самым ограничивая дальнейшее развитие. Чтобы решить эту проблему, мы исследуем потенциал LLM для самосовершенствования в рассуждении на основе длинных контекстов и предлагаем подход \ours, специально разработанный для этой цели. Этот подход прост: мы генерируем несколько ответов на каждый вопрос, оцениваем их с помощью метода минимального байесовского риска и затем применяем дообучение с учителем или оптимизацию предпочтений на основе этих ответов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность \ours, с абсолютным улучшением на 4.2 балла для Llama-3.1-8B-Instruct. Более того, \ours показывает превосходные результаты по сравнению с предыдущими подходами, которые зависят от данных, произведенных человеческими экспертами или продвинутыми моделями. Мы ожидаем, что эта работа откроет новые пути для техник самосовершенствования в сценариях с длинными контекстами, что необходимо для постоянного развития LLM.

CamemBERT 2.0: Эволюция французского языкового моделирования

Модели французского языка, такие как CamemBERT, были широко приняты в различных отраслях для задач обработки естественного языка (NLP), причем модели вроде CamemBERT имеют более 4 миллионов загрузок в месяц. Однако эти модели сталкиваются с вызовами из-за временного смещения концепций, когда устаревшие обучающие данные приводят к снижению производительности, особенно при встрече с новыми темами и терминологией. Этот вопрос подчеркивает необходимость обновления моделей, отражающих современные лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих проблем. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует задачу обнаружения замененных токенов (RTD) для улучшения понимания контекста, в то время как CamemBERTv2 построена на RoBERTa, которая использует задачу маскированного моделирования языка (MLM). Обе модели обучены на значительно большем и более актуальном наборе данных с удлиненной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общих задачах NLP, так и в специфических областях применения, таких как медицинские задачи, демонстрируя их универсальность и эффективность в различных случаях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны в открытом доступе на платформе Huggingface.

Идентификация аппаратной и программной платформы для вывода модели

Теперь распространённой деловой практикой стало покупать доступ к выводу крупных языковых моделей (LLM) вместо самостоятельного хостинга из-за значительных начальных затрат на аппаратную инфраструктуру и энергопотребление. Однако, как покупатель, нет механизма для проверки подлинности рекламируемого сервиса, включая аппаратную платформу для обслуживания, например, что он действительно обслуживается с использованием NVIDIA H100. Кроме того, есть сообщения, предполагающие, что поставщики моделей могут предоставлять модели, немного отличающиеся от рекламируемых, часто для того, чтобы они могли работать на менее дорогом оборудовании. Таким образом, клиент платит премию за доступ к способной модели на более дорогом оборудовании, но в итоге обслуживается дешёвой (потенциально менее способной) моделью на более дешёвом оборудовании. В этой статье мы вводим понятие **вывод аппаратной и программной платформы (HSPI)** — метод для идентификации базовой архитектуры и программного стека (чёрного ящика) машинного обучения модели, основанный исключительно на её входно-выходном поведении. Наш метод использует врождённые различия различных архитектур и компиляторов для различения различных типов и программных стеков. Анализируя числовые паттерны в выводах модели, мы предлагаем классификационную рамку, способную точно идентифицировать используемую для вывода модели, а также базовую программную конфигурацию. Наши результаты демонстрируют возможность выведения типа из чёрных ящиков моделей. Мы оцениваем HSPI по моделям, обслуживаемым на различном реальном оборудовании, и находим, что в белом ящике мы можем различать между различными типами с точностью от 83.9% до 100%. Даже в чёрном ящике мы можем достигать результатов, которые в три раза выше точности случайного угадывания.

JanusFlow: Гармонизация Авторегрессии и Выпрямленного Потока для Объединённого Мультимодального Понимания и Генерации

Мы представляем JanusFlow — мощную платформу, которая объединяет понимание и генерацию изображений в одной модели. JanusFlow вводит минималистичную архитектуру, интегрирующую авторегрессионные языковые модели с исправленным потоком, методом на переднем крае моделирования генерации. Наше ключевое открытие показывает, что исправленный поток можно легко обучить в рамках большой языковой модели, исключая необходимость в сложных архитектурных изменениях. Чтобы дополнительно повысить производительность нашей унифицированной модели, мы применяем две ключевые стратегии: (i) разделение кодировщиков для понимания и генерации, и (ii) согласование их представлений в процессе унифицированного обучения. Многочисленные эксперименты показывают, что JanusFlow достигает сопоставимых или превосходящих результатов по сравнению с специализированными моделями в их соответствующих областях, при этом значительно превосходя существующие унифицированные подходы по стандартным тестам. Эта работа является шагом к созданию более эффективных и универсальных моделей видео-языкового взаимодействия.

НЕКО: Построение пост-распознавания с использованием моделей больших языковых моделей и специалистов по задачам

Конструкция общего назначения корректора ошибок после распознавания ставит важный вопрос: как наиболее эффективно обучить модель на большом смешении наборов данных из различных областей? Ответ заключается в изучении специфических для каждого набора данных характеристик и их интеграции в единую модель. Ранние методы достигали этого, создавая отдельные модели коррекции языка, что приводило к значительному увеличению числа параметров. В данной работе мы представляем решение с использованием концепции "Смесь экспертов" (Mixture-of-Experts, MoE), подчеркивая, что MoE - это гораздо больше, чем просто инструмент для масштабирования. Мы предлагаем MoE для многозадачной коррекции, где эксперты обучаются быть "специалистами" в области распознавания речи, перевода текста и обработки визуальной информации, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на Open ASR Leaderboard показывают, что мы исследуем новый уровень производительности, достигая в среднем относительного снижения WER на 5.0% и значительных улучшений в BLEU для задач распознавания речи и перевода. При нулевом тестировании NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15.5% до 27.6% в тесте Hyporadise. NeKo показывает конкурентоспособные результаты по грамматике и коррекции после OCR в качестве модели для многих задач.

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

Усиление Конверсационных Агентов с помощью LLM, Насыщенных Навыками Разума

Для усиления социальных связей с собеседниками люди естественным образом приобретают способность адекватно реагировать в заданной ситуации, учитывая, какой навык общения наиболее подходит для ответа — процесс, который мы называем "навык ума". Для агентов беседы, основанных на больших языковых моделях (LLM), планирование подходящих навыков общения, как это делают люди, представляет собой сложную задачу из-за сложности социального диалога, особенно в интерактивных сценариях. Чтобы решить эту проблему, мы предлагаем набор данных бесед с аннотациями навыков ума, названный "Многоаспектный навык ума", который включает в себя многоходовые и многоаспектные навыки общения в различных интерактивных сценариях (например, долгосрочные, консультационные, ориентированные на задачу), основанные на разнообразных социальных контекстах (например, демография, персона, правила поведения). Этот набор данных содержит примерно 100 тысяч бесед. Используя этот набор данных, мы представляем новую семью LLM с интегрированными навыками ума, названную "Танос", с размерами модели в 1 миллиард, 3 миллиарда и 8 миллиардов параметров. Эти модели в ходе обширных экспериментов успешно демонстрируют процесс навыка ума и показывают высокую обобщаемость при выводе многоаспектных навыков в различных областях. Более того, мы показали, что Танос значительно улучшает качество ответов, генерируемых агентами бесед на основе LLM, и способствует про-социальному поведению в оценках человеком.

DreamPolish: Инновационный подход к созданию 3D моделей

Мы представляем DreamPolish, модель генерации 3D из текста, которая выделяется производством утонченной геометрии и высококачественных текстур. На этапе построения геометрии наш подход использует несколько нейронных представлений для повышения стабильности процесса синтеза. Вместо того чтобы полагаться только на предварительно заданные условия просмотра в новых семплированных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для улучшения деталей геометрии, исходя из точек зрения с различными углами обзора. Мы предлагаем добавить этап полировки поверхности с минимальным количеством шагов обучения, который может эффективно устранить артефакты, связанные с ограниченным руководством на предыдущих этапах, и производить 3D объекты с более желательной геометрией. Ключевой темой генерации текстур с использованием предварительно обученных моделей текст-картинка является поиск подходящего домена в широком латентном распределении этих моделей, который содержит фотореалистичные и последовательные рендеринги. На этапе генерации текстур мы вводим новую цель дистилляции оценки, а именно дистилляцию доменного оценки (DSD), чтобы направить нейронные представления к такому домену. Мы вдохновляемся бесплатным руководством классификатора (CFG) в задачах генерации изображений на основе текста и показываем, что CFG и руководство вариационным распределением представляют собой различные аспекты в градиентном руководстве и оба являются необходимыми для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель может производить 3D активы с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие методы на передовом уровне.

Оптимальные Визуальные Языковые Модели (VLM): Ключ к Эффективности

Модели языка и видения (VLMs) продемонстрировали высокую эффективность в различных задачах понимания и анализа визуальной информации. Однако их внедрение в реальном мире часто ограничено высокой задержкой при выводе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов (преимущественно из изображений) языковой моделью (LLM). Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, причем последнее стало фокусом многих недавних исследований по сжатию токенов. Однако неясно, каков оптимальный баланс, поскольку оба фактора напрямую влияют на производительность VLM. Мы впервые характеризуем этот оптимальный баланс между количеством визуальных токенов и параметрами LLM, устанавливая законы масштабирования, которые отражают изменения производительности с учетом этих двух факторов. Наши результаты выявляют неожиданную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLMs, то есть минимальная ошибка при любом фиксированном вычислительном бюджете, достигается при использовании самой большой LLM, которая вписывается в бюджет вывода, при этом минимизируя количество визуальных токенов, часто до одного токена. Хотя литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты указывают на то, что оптимальный режим вывода с точки зрения вычислительных ресурсов требует работы при еще более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы делаем первые шаги к разработке подходов, адаптированных для условий высокой компрессии токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

Торговля точностью и производительностью в квантовании LLM: Обзор и анализ

Несмотря на популярность квантизации крупных языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромиссов между точностью и производительностью, связанных с различными форматами квантизации. Мы представляем всестороннее эмпирическое исследование точности квантизированных моделей, оценивая популярные форматы квантизации (FP8, INT8, INT4) на академических тестах и реальных задачах для всей семейства моделей Llama-3.1. Кроме того, наше исследование анализирует различия в тексте, генерируемом квантизированными моделями, по сравнению с их не сжатыми аналогами. Помимо тестов, мы также представляем несколько улучшений в квантизации, которые позволили нам достичь результатов по восстановлению точности на уровне лучших в своем классе. Наше исследование, включающее более 500,000 индивидуальных оценок, дает несколько ключевых выводов: (1) квантизация весов и активаций в формате FP8 (W8A8-FP) является без потерь на всех масштабах моделей, (2) квантизация весов и активаций в формате INT8 (W8A8-INT), при правильной настройке, приводит к неожиданно низкому снижению точности на 1-3%, и (3) квантизация только весов в формате INT4 (W4A16-INT) является конкурентоспособной по сравнению с 8-битной целочисленной квантизацией весов и активаций. Для ответа на вопрос о «лучшем» формате для конкретной среды развертывания, мы проводим анализ производительности вывода с использованием популярной открытой платформы vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает наилучшую стоимостную эффективность для синхронных развертываний, а также для асинхронного развертывания на GPU среднего уровня. В то же время, форматы W8A8 превосходят в асинхронном развертывании с «непрерывной пакетной обработкой» средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантизированных LLM в различных масштабах и требованиях к производительности.

Пространство вложений слов: от теории к практике

Пространство вложений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задач. Мы указываем, что большинство подходов к моделированию, исправлению и измерению симметрии пространства вложений неявно предполагают, что частоты слов равномерны; на самом деле, частоты слов следуют крайне неравномерному распределению, известному как закон Ципфа. Удивительно, но простое применение взвешенного по эмпирической частоте слов PCA отбеливания, соответствующего закону Ципфа, значительно улучшает производительность задач, превосходя установленные базовые показатели. С теоретической точки зрения, как наш подход, так и существующие методы можно четко категоризировать: представления слов распределены в соответствии с экспоненциальной семьей с либо равномерными, либо цепфиановыми базовыми мерами. Приняв последний подход, мы можем естественным образом выделить информативные слова с низкой частотой с точки зрения их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также с точки зрения функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и языковые модели без головы, работают хорошо именно потому, что их словесные вложения закодировали эмпирическую частоту слов в лежащую в основе вероятностную модель.

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.