Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "synthetic"

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

Phi-4: Модель языка нового поколения

Мы представляем phi-4, языковую модель с 14 миллиардами параметров, разработанную с рецептом обучения, который основное внимание уделяет качеству данных. В отличие от большинства языковых моделей, где предобучение в основном основано на органических источниках данных, таких как веб-контент или код, phi-4 стратегически включает синтетические данные на протяжении всего процесса обучения. В то время как предыдущие модели из семейства Phi в основном дистиллируют возможности модели-учителя (в частности, GPT-4), phi-4 существенно превосходит свою модель-учитель по возможностям QA, сосредоточенным на STEM, что свидетельствует о том, что наши методы генерации данных и постобучения выходят за пределы дистилляции. Несмотря на минимальные изменения в архитектуре phi-3, phi-4 демонстрирует отличные результаты по сравнению со своим размером - особенно на эталонах, ориентированных на рассуждение - благодаря улучшенным данным, учебной программе и инновациям в схеме постобучения.

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

Morph: Бездвижный Фреймворк Оптимизации Физики для Генерации Человеческого Движения

Генерация человеческого движения играет жизненно важную роль в таких приложениях, как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к частому производству физически неправдоподобных движений с выраженными артефактами, такими как зависание и скольжение ног. В этой работе мы предлагаем Morph, систему оптимизации физики без движения, состоящую из генератора движений и модуля уточнения физики движений, для повышения физической правдоподобности без необходимости полагаться на дорогие данные реального мира. В частности, генератор движений отвечает за предоставление синтетических данных о движениях в большом масштабе, в то время как модуль уточнения физики движений использует эти синтетические данные для обучения имитатора движений в физическом симуляторе, обеспечивая физические ограничения для проекции шумных движений в физически правдоподобное пространство. Эти физически уточненные движения, в свою очередь, используются для дальнейшей тонкой настройки генератора движений, что дополнительно повышает его возможности. Эксперименты по задачам генерации текста в движение и музыки в танец показывают, что наша система достигает качественного уровня генерации движений, сохраняя при этом значительное улучшение физической правдоподобности.

Контролируемая генерация человеческих изображений с персонализированными мульти-гарментами

Мы представляем BootComp, новую систему на основе моделей диффузии текста-в-изображение для контролируемой генерации изображений людей с использованием нескольких эталонных предметов одежды. Основная проблема здесь — сбор данных для обучения: создание крупномасштабного набора данных с высококачественными изображениями эталонной одежды для каждого человека представляет значительную сложность, то есть, идеально было бы вручную собирать каждую фотографию одежды, которую носит каждый человек. Чтобы решить эту проблему, мы предлагаем пайплайн для генерации данных, который позволяет создать большой синтетический набор данных, состоящий из пар человек и нескольких предметов одежды, путем внедрения модели для извлечения любых эталонных изображений одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения перцептивного сходства между одеждой, представленной на изображении человека, и извлеченной одеждой. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии, которая имеет два параллельных пути деноизации, использующие несколько изображений одежды в качестве условий для генерации изображений людей, при этом сохраняя их детализированные особенности. Мы также демонстрируем широкую применимость нашей системы, адаптируя ее к различным типам генерации на основе эталонов в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, такими как поза, лицо и т.д.

Самоусовершенствование крупных языковых моделей в длинноконтекстном рассуждении

Крупные языковые модели (LLMs) достигли значительного прогресса в обработке длинных контекстов, но все еще испытывают трудности с рассуждением на основе длинных контекстов. Существующие подходы обычно включают дообучение LLM с использованием синтетических данных, что зависит от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, тем самым ограничивая дальнейшее развитие. Чтобы решить эту проблему, мы исследуем потенциал LLM для самосовершенствования в рассуждении на основе длинных контекстов и предлагаем подход \ours, специально разработанный для этой цели. Этот подход прост: мы генерируем несколько ответов на каждый вопрос, оцениваем их с помощью метода минимального байесовского риска и затем применяем дообучение с учителем или оптимизацию предпочтений на основе этих ответов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность \ours, с абсолютным улучшением на 4.2 балла для Llama-3.1-8B-Instruct. Более того, \ours показывает превосходные результаты по сравнению с предыдущими подходами, которые зависят от данных, произведенных человеческими экспертами или продвинутыми моделями. Мы ожидаем, что эта работа откроет новые пути для техник самосовершенствования в сценариях с длинными контекстами, что необходимо для постоянного развития LLM.

Сильные модели не всегда лучшие учителя для настройки на инструкции

**Настройка инструкций широко используется для того, чтобы обеспечить эффективное выполнение инструкций пользователей большими языковыми моделями (LLM). Способности LLM к следованию инструкциям в значительной степени зависят от используемых для настройки наборов данных инструкций. Недавно появились синтетические наборы данных инструкций, которые представляют собой экономически выгодное решение для предоставления LLM разнообразных и качественных инструкций. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более эффективными учителями для настройки инструкций, и поэтому просто используют эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты с пятью базовыми моделями и двадцатью генераторами ответов показали, что более крупные и мощные модели не всегда являются лучшими учителями для более мелких моделей. Мы называем это явление парадоксом больших моделей. Мы наблюдаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и настраиваемыми базовыми моделями. Поэтому мы разработали новую метрику под названием Компенсируемое Совместимостью Вознаграждение (CAR), чтобы измерить эффективность генераторов ответов. Наши эксперименты с пятью базовыми моделями показывают, что CAR превосходит почти все базовые методы.**

Изучение видео представлений без использования натуральных видео

В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.