Ай Дайджест

Оценка качества изображения для областей интереса с использованием инструкционной настройки видео-языковых моделей

Существующие методы оценки качества изображения (IQA) достигли значительных успехов в анализе качества целого изображения, однако немногие работы исследуют анализ качества для областей интереса (ROIs). Анализ качества ROIs может предоставить детальные рекомендации для улучшения качества изображения и является ключевым для сценариев, ориентированных на качество на уровне регионов. В данной статье предлагается новая сеть, SEAGULL, которая может видеть и оценивать качество ROIs с использованием руководства от большой модели "видение-язык". SEAGULL включает модель "видение-язык" (VLM), маски, сгенерированные моделью Segment Anything Model (SAM) для указания ROIs, и тщательно разработанный экстрактор признаков на основе масок (MFE) для извлечения глобальных и локальных токенов для указанных ROIs, что позволяет выполнять точную оценку качества на уровне ROIs. Более того, в статье созданы два набора данных IQA на основе ROIs, SEAGULL-100w и SEAGULL-3k, для обучения и оценки IQA на основе ROIs. SEAGULL-100w содержит около 100 тысяч синтетических искаженных изображений с 33 миллионами ROIs для предобучения, чтобы улучшить способность модели воспринимать качество регионов, а SEAGULL-3k включает около 3 тысяч реальных искаженных ROIs для повышения способности модели воспринимать реальные искажения. После предобучения на SEAGULL-100w и дообучения на SEAGULL-3k, SEAGULL демонстрирует выдающиеся результаты в оценке качества ROIs с высокой детализацией. Код и наборы данных доступны по адресу https://github.com/chencn2020/Seagull.

iqa roi vlm

FlipSketch: От простых набросков к анимированным шедеврам

Анимации в стиле скетчей предлагают мощное средство для визуального рассказывания историй, от простых набросков в блокноте до профессиональных студийных производств. В то время как традиционная анимация требует команд квалифицированных художников для рисования ключевых кадров и промежуточных кадров, существующие попытки автоматизации все еще требуют значительных художественных усилий через точные пути движения или спецификацию ключевых кадров. Мы представляем FlipSketch, систему, которая возвращает волшебство анимации из блокнота - просто нарисуйте вашу идею и опишите, как вы хотите, чтобы она двигалась! Наш подход использует предварительные знания о движении из моделей диффузии текста в видео, адаптируя их для создания анимации скетчей через три ключевые инновации: (i) настройка для генерации кадров в стиле скетча, (ii) механизм опорного кадра, который сохраняет визуальную целостность вводимого скетча через уточнение шума, и (iii) двойное внимание, которое позволяет плавное движение без потери визуальной согласованности. В отличие от ограниченных векторных анимаций, наши растровые кадры поддерживают динамические трансформации скетчей, захватывая выразительную свободу традиционной анимации. В результате получается интуитивно понятная система, которая делает создание анимации скетчей так же простым, как рисование и описание, сохраняя при этом художественную сущность ручной анимации.

animation automation diffusion

Символическая Оптимизация Предпочтений с Демонстрациями (SymDPO): Усиление Контекстно-Ориентированного Обучения Мультимодальных Моделей

По мере того как языковые модели продолжают масштабироваться, крупные языковые модели (LLM) демонстрируют развивающиеся возможности в области обучения в контексте (ICL), что позволяет им решать языковые задачи, предваряя несколько демонстраций в контексте (ICDs) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки крупных мультимодальных моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с серьезной проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это свидетельствует о том, что LMM не достигают эффективного согласования между мультимодальными демонстрациями и выходными данными модели. Для решения этой проблемы мы предлагаем Оптимизацию прямого предпочтения демонстрации символами (SymDPO). Конкретно, SymDPO стремится нарушить традиционный подход к созданию мультимодальных демонстраций, заменяя текстовые ответы в примерах на случайные символы. Это заставляет модель внимательно анализировать изображения в демонстрациях и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы проверяем эффективность этого метода на нескольких тестовых наборах, демонстрируя, что с помощью SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать эти знания для лучшего ответа на вопросы.

models learning context

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

autoregressive decoding diffusion

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

vision segmentation clip

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

tokenization transformer multilingual

Построение доверия: основы безопасности, безопасности и прозрачности в ИИ

В данной статье рассматривается быстро развивающаяся экосистема публично доступных моделей искусственного интеллекта и их потенциальное влияние на ландшафт безопасности и безопасности. По мере того как модели ИИ становятся всё более распространёнными, понимание их потенциальных рисков и уязвимостей становится критически важным. Мы анализируем текущие сценарии безопасности и безопасности, выделяя такие проблемы, как отслеживание проблем, исправление, и очевидное отсутствие процессов жизненного цикла и владения моделями ИИ. Предлагаются комплексные стратегии для повышения безопасности и безопасности как для разработчиков моделей, так и для конечных пользователей. Цель этой статьи - предоставить некоторые основополагающие элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей ИИ, а также в формировании более широких открытых экосистем и сообществ вокруг них.

ai security safety

Открытый датасет RedPajama для обучения больших языковых моделей

Крупные языковые модели всё чаще становятся краеугольным камнем технологий в искусственном интеллекте, науках и обществе в целом, однако оптимальные стратегии для составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из моделей, показывающих наилучшие результаты, не прозрачны в процессах курирования данных и разработки моделей, что создает препятствие для развития полностью открытых языковых моделей. В данной статье мы выявляем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей. К ним относятся: (1) прозрачность в разработке модели, включая процесс курирования данных, (2) доступ к большому количеству качественных данных и (3) доступность артефактов и метаданных для курирования и анализа данных. Для решения этих проблем мы выпускаем RedPajama-V1, открытую репродукцию набора данных для обучения LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный веб-набор данных, состоящий из необработанного, нефильтрованного текстового контента вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama включают более 100 триллионов токенов, охватывающих множество областей, и с их сигналами качества облегчают фильтрацию данных, целью чего является вдохновение на создание множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались для обучения мощных языковых моделей, применяемых в производстве, таких как Snowflake Arctic, Salesforce's XGen и AI2's OLMo. Чтобы дать представление о качестве RedPajama, мы представляем серию анализов и исследований с использованием только декодерских языковых моделей с количеством параметров до 1.6 миллиардов. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения развития прозрачных и высокопроизводительных языковых моделей в большом масштабе.

model dataset transparency

Динамическая манипуляция в руке мягким роботом: SWIFT

Динамическая манипуляция в руке остается сложной задачей для мягких робототехнических систем, которые показали преимущества в безопасных и податливых взаимодействиях, но испытывают трудности с высокоскоростными динамическими задачами. В данной работе мы представляем SWIFT, систему для обучения динамическим задачам с использованием мягкой и податливой роботизированной руки. В отличие от предыдущих работ, которые полагались на симуляцию, квазистатические действия и точные модели объектов, предлагаемая система учится вращать ручку методом проб и ошибок, используя только реальные данные без необходимости явного знания физических характеристик ручки. С помощью самопомеченных испытаний, отобранных из реального мира, система определяет набор параметров захвата и вращения ручки, которые позволяют мягкой руке вращать ручку надежно и эффективно. После 130 отобранных действий на объект, SWIFT достигает 100% успеха для трех ручек с разным весом и распределением веса, демонстрируя способность системы к обобщению и устойчивость к изменениям свойств объекта. Результаты подчеркивают потенциал мягких робототехнических эффекторов для выполнения динамических задач, включая быструю манипуляцию в руке. Мы также демонстрируем, что SWIFT может обобщать на вращение предметов различной формы и веса, таких как кисть и отвертка, с успехом в 10/10 и 5/10 соответственно. Видео, данные и код доступны по адресу https://soft-spin.github.io.

learning manipulation soft