Ай Дайджест - категория extraction

StyleMaster: Устранение проблем стилизации видео с помощью нового подхода

Контроль стиля был популярным в моделях генерации видео. Существующие методы часто генерируют видео, сильно отличающиеся от заданного стиля, вызывают утечку контента и имеют трудности с переводом одного видео в желаемый стиль. Наша первая наблюдение заключается в том, что стадия извлечения стиля имеет значение, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Чтобы добавить текстурные особенности и предотвратить утечку контента, мы фильтруем связанные с контентом патчи, сохраняя стильовые на основе схожести между патчами; для извлечения глобального стиля мы создаем парный стильовый датасет через модельную иллюзию для облегчения контрастивного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на статичных видео, что неявно увеличивает степень стилизации и позволяет нашей модели, обученной на изображениях, бесшовно применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только значительно улучшает как сходство стиля, так и временную согласованность, но и легко обобщается для передачи стиля видео с помощью ControlNet с серой плиткой. Обширные эксперименты и визуализации показывают, что StyleMaster значительно превосходит конкурентов, эффективно генерируя высококачественные стилизованные видео, которые соответствуют текстовому содержанию и близки к стилю эталонных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster.

2024-12-12textures extraction transfer

OmniDocBench: Новая Эра в Извлечении Содержимого Документов

Извлечение содержимого документов имеет решающее значение в компьютерном зрении, особенно для удовлетворения потребностей в качественных данных крупных языковых моделей (LLMs) и технологий генерации с поддержкой поиска (RAG). Однако текущие методы анализа документов страдают от значительных ограничений в отношении разнообразия и комплексной оценки. Чтобы решить эти проблемы, мы представляем OmniDocBench, новую многоисточную эталонную базу, разработанную для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, состоящий из девяти различных типов документов, таких как академические статьи, учебники, слайды и др. Наша эталонная база предоставляет гибкую и всеобъемлющую структуру оценки с 19 метками категорий макета и 14 метками атрибутов, что позволяет проводить многоуровневую оценку как по целым наборам данных, так и по отдельным модулям или конкретным типам данных. С помощью OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных пайплайнов и мультимодальных методов end-to-end, подчеркивая их ограничения в обработке документального разнообразия и обеспечении справедливой оценки. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих достижений и содействуя разработке технологий анализа документов. Код и набор данных доступны по адресу https://github.com/opendatalab/OmniDocBench.

2024-12-11multimodal diversity evaluation

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

2024-12-06ocr training synthetic

Долгосрочное извлечение ключевых фраз для длинных документов: Введение в LongKey

В эпоху информационного перегрузки ручная аннотация обширного и растущего корпуса документов и научных статей становится все менее практичной. Автоматизированное извлечение ключевых фраз решает эту задачу, идентифицируя представительные термины в текстах. Однако большинство существующих методов ориентированы на короткие документы (до 512 токенов), оставляя пробел в обработке длинных контекстов. В этой статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из длинных документов, которая использует языковую модель на основе кодировщика для захвата сложных аспектов текста. LongKey использует эмбеддер с максимальным пуллингом для улучшения представления кандидатов на ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невиданных наборах данных, LongKey постоянно превосходит существующие методы извлечения ключевых фраз на основе ненадзорного обучения и языковых моделей. Наши данные демонстрируют универсальность LongKey и его превосходную производительность, что является прогрессом в извлечении ключевых фраз для различных длин текстов и областей.

2024-11-29embedding long-context keyphrase

Визуализация предпочтений: Революция в персонализации рекомендаций

Мы предполагаем, что визуальная история пользователя, отражающая его повседневную жизнь, предоставляет ценные сведения о его интересах и предпочтениях, и может быть использована для персонализации. Среди множества задач, стоящих перед нами, наиболее важной является разнообразие и шум в визуальной истории, содержащей изображения, которые не обязательно связаны с задачей рекомендации, не обязательно отражают интересы пользователя или даже не имеют отношения к его предпочтениям. Существующие системы рекомендаций либо опираются на специфические для задачи логи взаимодействия пользователя, например, история онлайн-покупок для рекомендаций покупок, либо сосредотачиваются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и уточняет представления изображений и использует эти сигналы для персонализации. Мы создали две новые эталонные базы данных с визуальными историями, не зависящими от конкретных задач, и показали, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по метрике Hit@3, и превосходит GPT-4o на 2-5%. Наш подход открывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не работают.

2024-11-26filtering images benchmarks

Отчет о Результатах Второго Хакатона по Применению LLM в Материаловедении и Химии

Здесь мы представляем результаты второго хакатона по большим языковым моделям (LLM) для применения в науке о материалах и химии, который собрал участников по всему миру в гибридных локациях и привел к 34 заявкам команд. Заявки охватывали семь ключевых областей применения и продемонстрировали разнообразное использование LLM в следующих направлениях: (1) прогнозирование свойств молекул и материалов; (2) дизайн молекул и материалов; (3) автоматизация и новые интерфейсы; (4) научная коммуникация и образование; (5) управление и автоматизация научных данных; (6) генерация и оценка гипотез; и (7) извлечение знаний и рассуждений из научной литературы. Каждая заявка команды представлена в сводной таблице с ссылками на код и краткими статьями в приложении. Помимо результатов команд, мы обсуждаем сам хакатон и его гибридный формат, который включал физические центры в Торонто, Монреале, Сан-Франциско, Берлине, Лозанне и Токио, а также глобальный онлайн-центр для обеспечения местного и виртуального сотрудничества. В целом, мероприятие подчеркнуло значительные улучшения в возможностях LLM с прошлого года, указывая на продолжение расширения применения LLM в исследованиях в области науки о материалах и химии. Эти результаты демонстрируют двойное использование LLM как многоцелевых моделей для разнообразных задач машинного обучения, так и платформ для быстрого прототипирования специализированных приложений в научных исследованиях.

2024-11-26hypothesis extraction prediction

Водяные знаки в локализованных сообщениях: Обзор модели WAM

Методы наложения водяных знаков на изображения не адаптированы для обработки малых водяных знаковых областей. Это ограничивает применение в реальных сценариях, где части изображения могут поступать из разных источников или были отредактированы. Мы представляем модель глубокого обучения для локализованного наложения водяных знаков, названную Моделью Наложения Водяных Знаков (WAM). Встраиватель WAM неуловимо изменяет входное изображение, в то время как экстрактор разделяет полученное изображение на водяные знаковые и неводяные зоны и извлекает одно или несколько скрытых сообщений из областей, где были обнаружены водяные знаки. Модели обучаются совместно на низком разрешении и без перцептивных ограничений, затем дополнительно обучаются на незаметность и на возможность наложения множественных водяных знаков. Эксперименты показывают, что WAM конкурентоспособен с лучшими методами по незаметности и устойчивости, особенно против восстановления и монтажа, даже на изображениях высокого разрешения. Более того, он предлагает новые возможности: WAM может локализовать водяные знаковые области на монтированных изображениях и извлекать различные 32-битные сообщения с ошибкой менее 1 бита из нескольких малых областей - не более 10% поверхности изображения - даже для маленьких изображений 256x256.

2024-11-12imperceptibility deep-learning watermarking