Ай Дайджест - категория generator

Усовершенствование навигации с помощью языка: Самообучающаяся система данных

Создание высококачественных данных для обучения надежных агентов с языковыми инструкциями является давним вызовом в области эмбодированной ИИ. В этой статье мы представляем Самоочищающуюся Данные Летучая Мышь (SRDF), которая генерирует высококачественные и масштабные пары навигационных инструкций и траекторий, итеративно уточняя пул данных через сотрудничество между двумя моделями: генератором инструкций и навигатором, без каких-либо аннотаций человека в процессе. В частности, SRDF начинает с использования базового генератора для создания начального пула данных для обучения базового навигатора, после чего обученный навигатор применяется для фильтрации пула данных. Это приводит к более точным данным для обучения лучшего генератора, который, в свою очередь, может производить высококачественные данные для обучения навигатора следующего этапа. Такая летучая мышь устанавливает процесс самоочищения данных, обеспечивая непрерывно улучшенный и очень эффективный набор данных для масштабного обучения навигации на основе языка. Наши эксперименты показывают, что после нескольких циклов работы летучей мыши навигатор повышает границу производительности с 70% до 78% SPL на классическом тестовом наборе R2R, впервые превышая производительность человека (76%). Между тем, этот процесс приводит к созданию превосходного генератора, о чем свидетельствует увеличение SPICE с 23.5 до 26.2, что лучше всех предыдущих методов генерации инструкций VLN. Наконец, мы демонстрируем масштабируемость нашего метода через увеличение разнообразия среды и инструкций, а также способность нашего предварительно обученного навигатора обобщать на различные downstream навигационные задачи, значительно превышая методы передового опыта во всех случаях.

2024-12-12data generalization training

MindtheTime: Управление временем в многособытийной генерации видео

Видеоролики из реальной жизни состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с помощью существующих генераторов видео, которые полагаются на один абзац текста в качестве входных данных. При задании задачи генерации нескольких событий, описанных с помощью одного запроса, такие методы часто игнорируют некоторые события или не могут расположить их в правильном порядке. Чтобы справиться с этим ограничением, мы представляем MinT, многособытийный генератор видео с временным контролем. Наше ключевое понимание состоит в том, чтобы связать каждое событие с определенным периодом в создаваемом видео, что позволяет модели сосредоточиться на одном событии за раз. Для обеспечения временной осведомленности взаимодействий между подписями событий и видео-токенами мы разрабатываем метод позиционного кодирования на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию перекрестного внимания. Путем дообучения предобученного трансформера диффузии видео на временно привязанных данных наш подход создает согласованные видео с плавно соединенными событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видео. Обширные эксперименты показывают, что MinT значительно превосходит существующие модели с открытым исходным кодом.

2024-12-09transformer generator video