Усовершенствование навигации с помощью языка: Самообучающаяся система данных
Создание высококачественных данных для обучения надежных агентов с языковыми инструкциями является давним вызовом в области эмбодированной ИИ. В этой статье мы представляем Самоочищающуюся Данные Летучая Мышь (SRDF), которая генерирует высококачественные и масштабные пары навигационных инструкций и траекторий, итеративно уточняя пул данных через сотрудничество между двумя моделями: генератором инструкций и навигатором, без каких-либо аннотаций человека в процессе. В частности, SRDF начинает с использования базового генератора для создания начального пула данных для обучения базового навигатора, после чего обученный навигатор применяется для фильтрации пула данных. Это приводит к более точным данным для обучения лучшего генератора, который, в свою очередь, может производить высококачественные данные для обучения навигатора следующего этапа. Такая летучая мышь устанавливает процесс самоочищения данных, обеспечивая непрерывно улучшенный и очень эффективный набор данных для масштабного обучения навигации на основе языка. Наши эксперименты показывают, что после нескольких циклов работы летучей мыши навигатор повышает границу производительности с 70% до 78% SPL на классическом тестовом наборе R2R, впервые превышая производительность человека (76%). Между тем, этот процесс приводит к созданию превосходного генератора, о чем свидетельствует увеличение SPICE с 23.5 до 26.2, что лучше всех предыдущих методов генерации инструкций VLN. Наконец, мы демонстрируем масштабируемость нашего метода через увеличение разнообразия среды и инструкций, а также способность нашего предварительно обученного навигатора обобщать на различные downstream навигационные задачи, значительно превышая методы передового опыта во всех случаях.