Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

Мы предлагаем незаметный многобитный текстовый водяной знак, внедренный путем перефразирования с помощью LLM. Мы дообучаем пару LLM-перефразировщиков, которые разработаны так, чтобы вести себя по-разному, чтобы их различия в перефразировании, отраженные в семантике текста, могли быть распознаны обученным декодером. Чтобы встроить наш многобитный водяной знак, мы используем двух перефразировщиков поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера, чтобы расшифровать каждый бит водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99% AUC обнаружения с небольшими (1,1B) текстовыми перефразировщиками при сохранении семантической информации оригинального предложения. Более того, наш конвейер устойчив к замене слов и возмущениям перефразирования предложений и хорошо обобщается на данных вне распределения. Мы также демонстрируем невидимость нашего водяного знака с помощью оценки на основе LLM. Мы публикуем код с открытым исходным кодом: https://github.com/xiaojunxu/multi-bit-text-watermark.

Оптимизация слияния моделей: переработка для улучшения производительности

Слияние моделей показало большие перспективы в объединении экспертных моделей, но польза от слияния неясна при объединении "универсальных" моделей, обученных на многих задачах. Мы исследуем слияние в контексте больших моделей (примерно 100 миллиардов параметров), рециклируя контрольные точки, которые демонстрируют компромиссы между разными задачами. Такие контрольные точки часто создаются в процессе разработки передовой модели, и многие субоптимальные из них обычно отбрасываются. Учитывая пул контрольных точек моделей, полученных из разных тренировочных запусков (например, разные стадии, цели, гиперпараметры и смеси данных), которые естественным образом показывают компромиссы между различными языковыми способностями (например, выполнение инструкций против генерации кода), мы исследуем, может ли слияние переработать такие субоптимальные модели в парето-оптимальную. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, в результате чего получаются парето-оптимальные модели, которые превосходят как отдельные модели, так и базовые линии на основе слияния. Дальнейший анализ показывает, что хорошие слияния, как правило, включают почти все контрольные точки с ненулевыми весами, что указывает на то, что даже на вид плохие начальные контрольные точки могут способствовать хорошим финальным слияниям.

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

Turbo3D: Ультрабыстрое Генерирование 3D Моделей из Текста

Мы представляем Turbo3D, ультрабыструю систему текст в 3D, способную генерировать высококачественные активы с использованием гауссового сплэттинга менее чем за одну секунду. Turbo3D использует быстрый 4-ступенчатый генератор диффузий с 4 видами и эффективный рекомпозитор с гауссовым методом, оба работающие в латентном пространстве. 4-ступенчатый генератор с 4 видами является моделью студента, полученной с помощью нового подхода Dual-Teacher, который побуждает студента учиться согласованности видов у многовидового преподавателя и фотореализму у одновидового преподавателя. Перемещая входные данные рекомпозитора с гауссовым методом из пространстве пикселей в латентное пространство, мы устраняем лишнее время декодирования изображений и уменьшаем длину последовательности трансформатора наполовину для максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими эталонами, при этом работает за меньшую долю их времени.

MotionShop: Нулевая передача движения в видеодифузионных моделях с использованием смеси градиентов

В этой работе мы предлагаем первый подход к передаче движения в диффузионномTransformer через Mixture of Score Guidance (MSG), теоретически обоснованную структуру для передачи движения в диффузионных моделях. Наша ключевая теоретическая contribuição заключается в реформулировании условной оценки, чтобы разложить оценку движения и оценку содержания в диффузионных моделях. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и позволяет креативные преобразования сцены при сохранении целостности переданных паттернов движения. Этот новый метод выборки работает непосредственно на уже обученных моделях видео-диффузии без дополнительного обучения или настройки. В ходе обширных экспериментов MSG успешно справляется с различными сценариями, включая передачу движения одного объекта, нескольких объектов и перекрестную передачу движения, а также сложную передачу движения камеры. Кроме того, мы представляем MotionBench, первую выборку данных по передаче движения, состоящую из 200 исходных видео и 1000 переданных движений, охватывающих передачи одного/нескольких объектов и сложные движения камеры.

Глобальные и плотные встраивания Земли: Основные концепции и подходы

С постоянно растущими объемами данных наблюдения за Землей, находящимися в архиве крупных программ, таких как Copernicus, возникает потребность в эффективных векторных представлениях исходных сырых данных. Подход к извлечению представлений признаков из предобученных глубоких нейронных сетей является мощным методом, который может предоставить семантические абстракции входных данных. Однако способ, которым это делается для архивов изображений, содержащих геопространственные данные, еще не определен. В этой работе предлагается расширение уже существующего общественного проекта Major TOM, сосредоточенного на предоставлении и стандартизации открытых и бесплатных наборов данных, готовых к использованию с искусственным интеллектом, для наблюдения за Землей. Кроме того, четыре глобальных и плотныхembedding набора данных открыто и бесплатно публикуются вместе с публикацией этой рукописи, что приводит к созданию самого обширного глобального открытого набора данных геопространственных визуальных встраиваний по охвату поверхности Земли.

GatedDeltaNet: Новая архитектура для улучшения моделей LLM

Линейные трансформеры привлекли внимание как эффективные альтернативы стандартным трансформерам, но их производительность в задачах поиска и длинного контекста была ограниченной. Чтобы преодолеть эти ограничения, недавние исследования исследовали два различных механизма: управление адаптивной памятью с помощью гейтов и правило обновления дельты для точных модификаций памяти. Мы наблюдаем, что эти механизмы являются взаимодополняющими: гейты обеспечивают быструю стерилизацию памяти, в то время как правило дельты облегчает целенаправленные обновления. Основываясь на этом понимании, мы вводим правило гейта дельты и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, по нескольким бенчмаркам, включая языковое моделирование, рассуждения на основе общего смысла, поиск в контексте, экстраполяцию длины и понимание длинного контекста. Мы также повышаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием в скользящем окне или слоями Mamba2, достигая как повышенной эффективности обучения, так и превосходных результатов по задачам.

Раскрытие сложности памяти в агентах с подкрепляющим обучением: подход к классификации и оценке

Внедрение памяти в агентов имеет решающее значение для выполнения множества задач в области обучения с подкреплением (RL). В частности, память важна для задач, требующих использования прошлой информации, адаптации к новым условиям и повышения эффективности выборки. Однако термин «память» охватывает широкий спектр понятий, что, в сочетании с отсутствием единой методологии для проверки памяти агента, приводит к ошибочным суждениям о возможностях памяти агентов и препятствует объективному сравнению с другими агентами, наделенными памятью. Эта статья направлена на упрощение концепции памяти в RL, предоставляя практические и точные определения типов памяти агента, таких как долговременная и краткосрочная память, а также декларативная и процедурная память, вдохновленные когнитивной наукой. Используя эти определения, мы категоризируем различные классы памяти агентов, предлагаем надежную экспериментальную методологию для оценки возможностей памяти агентов RL и стандартизируем оценки. Более того, мы эмпирически демонстрируем важность соблюдения предложенной методологии при оценке различных типов памяти агентов, проводя эксперименты с разными агентами RL и последствиями ее нарушения.

Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении

Поскольку языковые модели регулярно делают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждения становится все более значимой для их масштабируемого контроля. В данной статье мы представляем ProcessBench для оценки способности идентифицировать ошибочные шаги в математическом рассуждении. Он состоит из 3400 тестовых случаев, в основном сосредоточенных на задачах математики уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с аннотированным местом ошибки, отмеченным человеческими экспертами. Модели должны идентифицировать самый ранний шаг, содержащий ошибку, или сделать вывод о том, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели вознаграждения процесса (PRMs) и модели критиков, где для последних мы просим общие языковые модели критиковать каждое решение шаг за шагом. Мы делаем два основных наблюдения: (1) Существующие PRMs, как правило, не могут обобщать более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям критиков (т.е. запрошенным общим языковым моделям), так и нашей собранной PRM, которая явно донастраивается на наборе данных PRM800K. (2) Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способность к критике на уровне соперничающим с проприетарной моделью GPT-4o, несмотря на то, что она все еще отстает от специализированной модели рассуждений o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в области оценки процесса рассуждений, прокладывая путь к масштабируемому контролю языковых моделей.

Вы видите это, вы получили это: Обучение 3D-креации на видео без позы в масштабе

Недавние модели генерации 3D обычно полагаются на 3D 'золотые метки' ограниченного масштаба или 2D диффузионные приоритеты для создания 3D контента. Однако их производительность ограничена 3D приоритетами из-за недостатка масштабируемых парадигм обучения. В этой работе мы представляем See3D, визуально условную многовидовую диффузионную модель, обученную на крупных интернет-видео для создания 3D в открытом мире. Модель нацелена на получение 3D знаний исключительно путем зрения визуальных контентов из обширных и быстрорастущих видеоданных — Вы видите это, Вы получили это. Для достижения этой цели мы сначала увеличиваем объем обучающих данных, используя предложенную потоковую работу по кураторству данных, которая автоматически фильтрует многовидовые несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, разнообразному, крупномасштабному набору данных многовидовых изображений, названному WebVi3D, содержащему 320 миллионов кадров из 16 миллионов видеоклипов. Тем не менее, изучение обобщенных 3D приоритетов из видео без явной 3D геометрии или аннотаций позы камеры является нелегким, и аннотирование поз для видео в веб-масштабе является весьма дорогостоящим. Чтобы устранить необходимость в условиях позы, мы вводим инновационный визуальный сигнал — чисто 2D-индуктивный визуальный сигнал, генерируемый добавлением временно зависящего шума к маскированным видеоданным. Наконец, мы представляем новую визуально условную 3D генерацию, интегрируя See3D в основанный на деформации поток для высококачественной 3D генерации. Наши численные и визуальные сравнения на контрольных замерах единичной и разреженной реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает замечательных возможностей генерации zero-shot и в открытом мире, заметно превосходя модели, обученные на дорогих и ограниченных 3D наборах данных. Пожалуйста, смотрите нашу страницу проекта по адресу: https://vision.baai.ac.cn/see3d

MAtCha Gaussians: Атлас Чартов для Высококачественной Геометрии и Фотореализма из Редких Взглядов

Мы представляем новую модель внешнего вида, которая одновременно реализует явное восстановление качественной 3D-сетчатой поверхности и фоторасистичную синтез нового вида из редких образцов вида. Наша ключевая идея заключается в том, чтобы смоделировать базовую геометрию сцены как Атлас Чартов, которые мы отображаем с помощью 2D-гауссовских серфелов (MAtCha Gaussians). MAtCha выделяет высокочастотные детали поверхности сцены из стандартного монокулярного оценщика глубины и уточняет их с помощью рендеринга гауссовских серфелов. Гауссовские серфелы прикрепляются к чартам на лету, удовлетворяя фоторасистичности нейронного объемного рендеринга и четкой геометрии модели сетки, то есть две, казалось бы, противоречащие цели в одной модели. В основе MAtCha лежит новая модель нейронной деформации и структура потерь, которая сохраняет мелкие детали поверхности, выделенные из изученных монокулярных глубин, и в то же время решает их фундаментальные масштабирующие неоднозначности. Результаты обширной экспериментальной валидации демонстрируют современное качество MAtCha в восстановлении поверхности и фоторасистичности на уровне лучших конкурентов, но с драматическим снижением количества входных видов и вычислительного времени. Мы считаем, что MAtCha станет основным инструментом для любого визуального приложения в области зрения, графики и робототехники, которые требуют явной геометрии в дополнение к фоторасистичности. Наша страница проекта следующая: https://anttwo.github.io/matcha/

Обучение больших языковых моделей для рассуждений в непрерывном латентном пространстве

Большие языковые модели (LLM) ограничены в рассуждениях в "языковом пространстве", где они обычно выражают процесс рассуждения с помощью цепочки мыслей (CoT) для решения сложной задачи рассуждения. Однако мы утверждаем, что языковое пространство может не всегда быть оптимальным для рассуждений. Например, большинство словесных токенов в первую очередь предназначены для текстовой логики и не являются необходимыми для рассуждения, в то время как некоторые критически важные токены требуют сложного планирования и представляют собой огромные проблемы для LLM. Чтобы исследовать потенциал рассуждений LLM в неограниченном скрытом пространстве вместо использования естественного языка, мы представляем новую парадигму Кокос (Цепочка Непрерывной Мысли). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывной мыслью"). Вместо того чтобы декодировать это в словесный токен, мы возвращаем его обратно в LLM в качестве последующего вложения ввода непосредственно в непрерывном пространстве. Эксперименты показывают, что Кокос может эффективно дополнять LLM в нескольких задачах рассуждения. Эта новая парадигма скрытого рассуждения приводит к возникновению продвинутых паттернов рассуждения: непрерывная мысль может кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо того чтобы преждевременно фиксироваться на одном детерминированном пути, как это делается в CoT. Кокос превосходит CoT в определенных задачах логического рассуждения, которые требуют значительного возврата во время планирования, с меньшим количеством токенов мыслей во время вывода. Эти результаты демонстрируют перспективность скрытого рассуждения и предлагают ценные идеи для будущих исследований.

Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

Глобальная визуальная геолокация предсказывает, где изображение было сделано на Земле. Поскольку изображения различаются по точности локализации, эта задача изначально связана с значительной степенью неоднозначности. Тем не менее, существующие подходы являются детерминистическими и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации, основанный на диффузии и совпадении Римановых потоков, где процесс денойзинга осуществляется непосредственно на поверхности Земли. Наша модель достигает передовых показателей на трех тестах визуальной геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы вводим задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным локациям, вместо одной точки. Мы представляем новые метрики и базовые показатели для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Код и модели будут доступны.

CARP: Новая Парадигма Обучения Политике Визуомоторных Действий

В обучении визуомоторной политики с помощью роботов модели на основе диффузии добились значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких шагов денойзинга и ограниченной гибкости из-за сложных ограничений. В этой статье мы представляем метод Coarse-to-Fine AutoRegressive Policy (CARP) — новую парадигму для обучения визуомоторной политики, которая переопределяет процесс генерации действий авторегрессии как подход «грубого в тонкое» на следующем уровне. CARP декомпозирует генерацию действий на два этапа: сначала автоэнкодер действий обучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет предсказание последовательности через авторегрессивный процесс «грубого в тонкое». Этот простой и интуитивно понятный подход производит высокоточные и плавные действия, соответствуя или даже превосходя производительность политик на основе диффузии, при этом сохраняя эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных условиях, включая сценарии одиночных и многозадачных задач на основе состояния и изображений, а также в реальных задачах. CARP достигает конкурентоспособных показателей успеха с улучшением до 10% и обеспечивает в 10 раз более быструю инференцию по сравнению с современными политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в роботизированных задачах.

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.