Свежая выжимка ml и AI статей - каждый день
В последние годы нарастающее внимание к задачам, связанным с навигацией на основе языка, привело к значительным достижениям в области искусственного интеллекта (AI). Однако одной из основных проблем, с которыми сталкиваются разработчики, является отсутствие высококачественных данных для обучения. В статье, которую мы рассматриваем, представлена новая концепция, называемая Самообучающимся циклом данных (Self-Refining Data Flywheel, SRDF), которая направлена на создание высококачественных пар инструкций и траекторий навигации с помощью итеративного процесса между двумя моделями: генератором инструкций и навигатором.
Обучение агентов, способных выполнять задачи навигации, требует большого количества данных, которые часто должны быть аннотированы вручную. Это не только трудоемкий процесс, но и может привести к некачественным данным, если аннотации не будут выполнены точно. В частности, в задачах, связанных с Vision-and-Language Navigation (VLN), важно, чтобы инструкции были не только грамматически правильными, но и содержали точные указания, соответствующие траекториям.
Ранее существовали подходы, которые пытались масштабировать данные, используя существующие аннотированные наборы данных, такие как R2R (Room-to-Room). Однако, как показывают эксперименты, обучение только на синтетических данных может привести к худшим результатам по сравнению с обучением на небольшом, но высококачественном наборе данных. Это подчеркивает необходимость в высококачественных инструкциях, а не только в их количестве.
SRDF представляет собой итеративный процесс, который улучшает качество данных путем взаимодействия между генератором инструкций и навигатором. Процесс начинается с генерации начального набора данных с помощью базового генератора, который затем используется для обучения навигатора. После этого навигатор фильтрует данные, что приводит к созданию более качественного набора данных для следующего раунда обучения генератора.
Генерация начальных данных: Используя базовый генератор, создаются пары «инструкция-траектория», которые служат основой для обучения навигатора.
Обучение навигатора: Навигатор обучается на сгенерированных данных, что позволяет ему развить способности следовать инструкциям.
Фильтрация данных: Обученный навигатор используется для фильтрации низкокачественных данных, оставляя только те, которые соответствуют высоким стандартам.
Итерация: Процесс повторяется, при этом каждая итерация приводит к улучшению как генератора, так и навигатора.
В экспериментах, проведенных с использованием SRDF, было продемонстрировано значительное улучшение производительности навигатора. Например, на наборе данных R2R производительность навигатора была повышена с 70% до 78% по метрике SPL (Success Rate Weighted by Path Length), что превысило человеческую производительность (76%) впервые.
Для оценки качества сгенерированных инструкций использовались метрики, такие как nDTW (normalized Dynamic Time Warping) и SPL. Эти метрики позволяют измерять, насколько точно навигатор следовал сгенерированным инструкциям, что служит индикатором их качества.
SRDF показал значительное превосходство над предыдущими методами, включая ScaleVLN и Prevalent. Например, в одном из раундов SPICE (метрика для оценки качества инструкций) увеличился с 23.5 до 26.2, что является лучшим результатом среди всех предыдущих методов генерации инструкций.
Одним из ключевых аспектов SRDF является его способность к масштабированию. Эксперименты показали, что добавление разнообразия в окружение и инструкции приводит к улучшению производительности. Кроме того, предварительно обученный навигатор продемонстрировал отличные результаты на различных задачах навигации, что подтверждает его обобщаемость.
Предложенный подход SRDF представляет собой значительный шаг вперед в области обучения агентов, способных к навигации на основе языка. Идея самообучающегося цикла данных не только решает проблему качества данных, но и открывает новые горизонты для будущих исследований в области искусственного интеллекта. Важно отметить, что создание высококачественных данных является ключевым фактором для достижения успеха в задачах, связанных с взаимодействием человека и машины.
Таким образом, SRDF может стать основой для дальнейших разработок в области навигации и взаимодействия с окружающей средой, предлагая новые возможности для создания более сложных и эффективных систем AI.