Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "decoder"

Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

Мы предлагаем незаметный многобитный текстовый водяной знак, внедренный путем перефразирования с помощью LLM. Мы дообучаем пару LLM-перефразировщиков, которые разработаны так, чтобы вести себя по-разному, чтобы их различия в перефразировании, отраженные в семантике текста, могли быть распознаны обученным декодером. Чтобы встроить наш многобитный водяной знак, мы используем двух перефразировщиков поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера, чтобы расшифровать каждый бит водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99% AUC обнаружения с небольшими (1,1B) текстовыми перефразировщиками при сохранении семантической информации оригинального предложения. Более того, наш конвейер устойчив к замене слов и возмущениям перефразирования предложений и хорошо обобщается на данных вне распределения. Мы также демонстрируем невидимость нашего водяного знака с помощью оценки на основе LLM. Мы публикуем код с открытым исходным кодом: https://github.com/xiaojunxu/multi-bit-text-watermark.

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

AIM V 2: Расширение возможностей пре-тренировки крупных видеоэнкодеров с помощью мультимодального автопрогрессивного подхода

Мы представляем новый метод для предварительного обучения крупномасштабных зрительных энкодеров. Опираясь на недавние достижения в области автопрогрессивного предварительного обучения моделей видения, мы расширяем эту структуру на мультимодальный контекст, то есть на изображения и текст. В данной статье мы представляем AIMV2, семейство универсальных зрительных энкодеров, которые характеризуются простым процессом предварительного обучения, масштабируемостью и выдающимися результатами на множестве задач после обучения. Это достигается путем сочетания зрительного энкодера с мультимодальным декодером, который автопрогрессивно генерирует сырые фрагменты изображений и текстовые токены. Наши энкодеры превосходят не только в мультимодальных оценках, но и в зрительных бенчмарках, таких как локализация, привязка к местности и классификация. В частности, наш энкодер AIMV2-3B достигает точности в 89.5% на ImageNet-1k с неизменяемым стволом. Более того, AIMV2 постоянно превосходит лучшие контрастивные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных условиях.

Введение в ORID: Инновационный подход к Генерации Радиологических Отчетов

Цель генерации радиологических отчетов (RRG) заключается в автоматическом создании связных текстовых анализов заболеваний на основе радиологических изображений, что помогает уменьшить нагрузку на радиологов. Современные методы RRG, основанные на искусственном интеллекте, в основном сосредоточены на модификациях архитектуры модели кодировщика-декодера. Для развития этих подходов, данная статья вводит фреймворк, управляемый информацией об органах и регионах (ORID), который способен эффективно интегрировать мультимодальную информацию и уменьшить влияние шума от не связанных органов. Конкретно, на основе LLaVA-Med, мы сначала создаем набор инструкций, связанных с RRG, для улучшения способности описания диагностики по органам и регионам и получаем LLaVA-Med-RRG. После этого мы предлагаем модуль межмодальной интеграции, основанный на органах, чтобы эффективно сочетать информацию из описаний диагностики органов и регионов с радиологическими изображениями. Для дальнейшего снижения влияния шума от не связанных органов на генерацию радиологических отчетов, мы вводим модуль анализа коэффициента важности органов, который использует графовые нейронные сети (GNN) для изучения взаимосвязей мультимодальной информации каждого органного региона. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходную производительность нашего предложенного метода.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

Адаптивная Длина Токенизации Изображений через Рекуррентное Выделение

Текущие системы компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержания информации. Это контрастирует с человеческим интеллектом — и даже с большими языковыми моделями — которые распределяют различные объемы представлений в зависимости от энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщика-декодера рекурсивно обрабатывает токены двумерных изображений, превращая их в одномерные скрытые токены в ходе нескольких итераций рекуррентных проходов. Каждая итерация уточняет двумерные токены, обновляет существующие одномерные скрытые токены и адаптивно увеличивает представительную емкость, добавляя новые токены. Это позволяет сжимать изображения в переменное количество токенов, от 32 до 256. Мы проверяем наш токенизатор, используя метрики потери восстановления и FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям последующих задач. Рекуррентная обработка токенов с увеличением представительной емкости на каждой итерации показывает признаки специализации токенов, открывая потенциал для обнаружения объектов или частей.

Минимальное Энтропийное Сопряжение с Боттлнечком (MEC-B): Новый Подход к Потерям в Сжатии

В данной статье исследуется новая структура сжатия с потерями, работающая при логарифмических потерях, разработанная для обработки ситуаций, когда распределение восстановления отличается от исходного распределения. Эта структура особенно актуальна для приложений, требующих совместного сжатия и извлечения данных, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую структуру минимальной энтропии связи за счет интеграции "узкого места", что позволяет контролировать степень стохастичности в связи. Мы исследуем разложение Минимальной Энтропии Связи с "узким местом" (MEC-B) на две отдельные задачи оптимизации: Максимизация Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальная Энтропия Связи (MEC) для декодера. В ходе обширного анализа мы предлагаем жадный алгоритм для EBIM с гарантированными характеристиками производительности и описываем оптимальное решение вблизи функциональных отображений, что дает значительные теоретические инсайты в структурную сложность этой задачи. Более того, мы демонстрируем практическое применение MEC-B через эксперименты в играх с марковским кодированием (MCGs) при ограничениях на скорость передачи. Эти игры симулируют сценарий общения в рамках марковского процесса принятия решений, где агент должен передать сжатое сообщение от отправителя получателю через свои действия. Наши эксперименты выявляют компромиссы между вознаграждениями MDP и точностью получателя на различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с традиционными базовыми методами сжатия.