Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "semantic"

Глобальные и плотные встраивания Земли: Основные концепции и подходы

С постоянно растущими объемами данных наблюдения за Землей, находящимися в архиве крупных программ, таких как Copernicus, возникает потребность в эффективных векторных представлениях исходных сырых данных. Подход к извлечению представлений признаков из предобученных глубоких нейронных сетей является мощным методом, который может предоставить семантические абстракции входных данных. Однако способ, которым это делается для архивов изображений, содержащих геопространственные данные, еще не определен. В этой работе предлагается расширение уже существующего общественного проекта Major TOM, сосредоточенного на предоставлении и стандартизации открытых и бесплатных наборов данных, готовых к использованию с искусственным интеллектом, для наблюдения за Землей. Кроме того, четыре глобальных и плотныхembedding набора данных открыто и бесплатно публикуются вместе с публикацией этой рукописи, что приводит к созданию самого обширного глобального открытого набора данных геопространственных визуальных встраиваний по охвату поверхности Земли.

Устойчивый многоразрядный текстовый водяной знак с использованием LLM-парафразеров

Мы предлагаем незаметный многобитный текстовый водяной знак, внедренный путем перефразирования с помощью LLM. Мы дообучаем пару LLM-перефразировщиков, которые разработаны так, чтобы вести себя по-разному, чтобы их различия в перефразировании, отраженные в семантике текста, могли быть распознаны обученным декодером. Чтобы встроить наш многобитный водяной знак, мы используем двух перефразировщиков поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера, чтобы расшифровать каждый бит водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99% AUC обнаружения с небольшими (1,1B) текстовыми перефразировщиками при сохранении семантической информации оригинального предложения. Более того, наш конвейер устойчив к замене слов и возмущениям перефразирования предложений и хорошо обобщается на данных вне распределения. Мы также демонстрируем невидимость нашего водяного знака с помощью оценки на основе LLM. Мы публикуем код с открытым исходным кодом: https://github.com/xiaojunxu/multi-bit-text-watermark.

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

OmniCreator: Унифицированное поколение и редактирование видео с самообучением

Мы представляем OmniCreator, новую Framework, которая может осуществлять генерируемое текстом унифицированное (изображение + видео) создание, а также редактирование всего в одном месте. OmniCreator приобретает генеративные и универсальные редакционные возможности в самонаправленном режиме, принимая оригинальные текстово-видео пары в качестве условий, одновременно используя то же самое видео в качестве цели денойзинга для изучения семантического соответствия между видео и текстом. Во время вывода, когда представляется текстовый запрос и видео, OmniCreator способен генерировать целевой контент, который верен обоим, достигая универсального эффекта редактирования, который не ограничен в отличие от существующих редакционных работ, которые в основном сосредоточены на определенных типах редактирования или зависят от дополнительных контролей (например, структурных условий, функций внимания или инверсии DDIM). С другой стороны, когда представлен только текстовый запрос, OmniCreator становится генеративным, создавая высококачественное видео в результате изученного семантического соответствия. Важно отметить, что те же возможности распространяются на изображения как есть, что делает OmniCreator поистине унифицированной Framework. Более того, из-за отсутствия существующих бенчмарков для генеративного редактирования видео, мы представляем набор данных OmniBench-99, предназначенный для комплексной оценки производительности моделей генеративного редактирования видео. Обширные эксперименты демонстрируют, что OmniCreator демонстрирует значительное превосходство над всеми другими моделями.

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM

Крупные языковые модели (LLM) преуспели в ответах на вопросы с несколькими этапами (M-QA) благодаря своим продвинутым способностям к рассуждению. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных QA, которые предоставляли бы детализированные структуры рассуждений. Чтобы восполнить этот пробел, мы представляем Набор данных для вопросно-ответной системы с графовыми структурами рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений, создавая графы рассуждений, где узлы представляют текстовые контексты, а связи обозначают логические потоки. Эти графы рассуждений различных структур позволяют детально оценить способности LLM к рассуждению на различных структурах рассуждений. Наш эмпирический анализ показывает, что LLM по-разному справляются с вопросами, имеющими различные структуры рассуждений. Это открытие способствует изучению текстовых структур в сравнении с семантикой.