Ай Дайджест - категория annotations

LAION-SG: Новый Подход к Генерации Сложных Изображений с Аннотациями Структурных Графов

Недавние достижения в генерации изображений из текста (T2I) продемонстрировали выдающиеся результаты в создании высококачественных изображений на основе текста. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации составных изображений с участием нескольких объектов и сложными взаимосвязями. Мы связываем эту проблему с ограничениями существующих наборов данных пар изображений и текста, которые не содержат точных аннотаций взаимосвязей между объектами и имеют только подсказки. Чтобы решить эту проблему, мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями графов сцен (SG), которые точно описывают атрибуты и взаимосвязи нескольких объектов, эффективно представляя семантическую структуру в сложных сценах. На основе LAION-SG мы обучаем новую базовую модель SDXL-SG, чтобы интегрировать информацию о структурных аннотациях в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительные улучшения производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели по генерации составных изображений, устанавливая новый стандарт в этой области.

2024-12-12model semantics annotations

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

2024-12-06segmentation neural generation

HumanEdit: Высококачественный набор данных для редактирования изображений на основе инструкций

Мы представляем HumanEdit, высококачественный набор данных, вознагражденный людьми, специально разработанный для редактирования изображений под Anleitung, позволяющий точные и разнообразные манипуляции изображениями с помощью открытых текстовых инструкций. Предыдущие наборы данных редактирования крупномасштабного уровня часто включали минимальную обратную связь от человека, что приводило к проблемам с согласованием наборов данных с человеческими предпочтениями. HumanEdit преодолевает этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. С тщательно отобранными данными HumanEdit включает 5751 изображение и требует более 2500 часов человеческих усилий на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач редактирования изображений. Набор данных включает шесть различных типов инструкций редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывающих широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, а для подмножества данных мы обеспечиваем, чтобы инструкции были достаточно подробными для поддержки редактирования без масок. Более того, HumanEdit предлагает всеобъемлющее разнообразие и высокое разрешение 1024 на 1024 контента, полученного из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью содействия будущим исследованиям и установления оценочных стандартов в области редактирования изображений мы публикуем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

2024-12-06dataset editing annotations

Проблемы надежной человеческой оценки чат-ботов

Открытые платформы, основанные на сообществе, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей от посещающих сайт, завоевали репутацию одного из самых надежных общественно доступных эталонов для оценки производительности LLM. Хотя на данный момент это стандарт, реализация эффективных ограждений для сбора качественной аннотации от людей является сложной задачей. В этой статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут подорвать надежность открытых рейтингов. В частности, мы показываем, что только 10% аннотаций низкого качества от равнодушных (посетителей сайта, не имеющих адекватных стимулов для правильного голосования) или противников (плохих актеров, стремящихся повысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы, связанные с обеспечением качественных аннотаций людей.

2024-12-06mlm reliability performance

EgoVid-5M: Революция в Генерации Эгоцентрических Видео

Генерация видео вышла на передовые позиции как многообещающий инструмент для моделирования мира, используя визуальные данные для воспроизведения реальных окружающих сред. В этом контексте, генерация эгоцентрического видео, сосредоточенная на человеческой перспективе, обладает значительным потенциалом для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако создание эгоцентрических видео представляет значительные вызовы из-за динамической природы эгоцентрических точек зрения, сложного разнообразия действий и обширного многообразия сцен. Существующие наборы данных неадекватны для эффективного решения этих проблем. Чтобы преодолеть этот разрыв, мы представляем EgoVid-5M, первый высококачественный набор данных, специально созданный для генерации эгоцентрических видео. EgoVid-5M включает 5 миллионов эгоцентрических видеоклипов и обогащен подробными аннотациями действий, включая тонкую кинематическую настройку и высококачественные текстовые описания. Для обеспечения целостности и удобства использования набора данных мы разработали сложный конвейер очистки данных, предназначенный для поддержания последовательности кадров, согласованности действий и плавности движений в эгоцентрических условиях. Более того, мы представляем EgoDreamer, который способен генерировать эгоцентрические видео, одновременно управляемые описаниями действий и кинематическими сигналами управления. Набор данных EgoVid-5M, связанные с ним аннотации действий и все метаданные по очистке данных будут выпущены для продвижения исследований в области генерации эгоцентрических видео.

2024-11-14kinematic video generation

SelfCodeAlign: Само-aligning для генерации кода

Перевод текста на русский: "Настройка инструкций — это метод тонкой настройки под контролем, который значительно улучшает способность больших языковых моделей (LLM) следовать инструкциям человека. Мы предлагаем SelfCodeAlign, первую полностью прозрачную и разрешительную схему для само-согласования кодовых LLM без обширных человеческих аннотаций или дистилляции. SelfCodeAlign использует ту же базовую модель для вывода на протяжении всего процесса генерации данных. Сначала она извлекает разнообразные кодовые концепции из высококачественных исходных фрагментов для генерации новых задач. Затем она генерирует несколько ответов на каждую задачу, сопоставляет каждый ответ с тестовыми случаями и проверяет их в песочнице. Наконец, выбираются примеры, прошедшие проверку, для настройки инструкций. В наших основных экспериментах мы используем SelfCodeAlign с CodeQwen1.5-7B для создания набора данных из 74 тысяч пар инструкций-ответов. Тонкая настройка на этом наборе данных приводит к модели, которая достигает 67.1 pass@1 на HumanEval+, превосходя CodeLlama-70B-Instruct, несмотря на то, что она в десять раз меньше. Во всех тестах эта модель последовательно превосходит оригинальную версию, обученную с использованием OctoPack, предыдущий метод наилучшего уровня для настройки инструкций без человеческих аннотаций или дистилляции. Кроме того, мы показываем, что SelfCodeAlign эффективен для LLM различных размеров, от 3B до 33B, и что базовые модели могут больше выиграть от согласования с их собственным распределением данных. Мы также проверяем эффективность каждого компонента в нашей схеме, показывая, что SelfCodeAlign превосходит как прямую дистилляцию из GPT-4o, так и ведущие методы дистилляции на основе GPT-3.5, такие как OSS-Instruct и Evol-Instruct. SelfCodeAlign также привел к созданию StarCoder2-Instruct, первой полностью прозрачной, разрешительно лицензированной и само-согласованной кодовой LLM, которая достигает передовых результатов в программировании."

2024-11-01datasets inference tuning