Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Оценка целевого взгляда является важной задачей в области компьютерного зрения и машинного обучения, которая стремится предсказать, куда именно смотрит человек в сцене. Эта задача требует анализа как внешнего вида человека, так и содержимого окружающей среды. Ранее разработанные решения включали в себя сложные конвейеры, которые комбинировали функции из различных энкодеров, таких как энкодеры сцены и головы, а также вспомогательные модели для учета сигналов, таких как глубина и поза. В данной статье мы представляем Gaze-LLE (Gaze estimation via Large-scale Learned Encoders) — новый подход, который упрощает процесс оценки целевого взгляда, используя функции из замороженного энкодера DINOv2.

Проблема оценки целевого взгляда

Оценка целевого взгляда — это задача, которая требует понимания намерений человека в контексте его взаимодействия с окружающим миром. Например, в повседневной жизни люди могут следовать взгляду других людей, чтобы понять, на что они обращают внимание. Эта способность критически важна для социальных взаимодействий и понимания человеческого поведения. Однако, традиционные подходы к оценке целевого взгляда страдают от сложности и ограниченности в масштабах обучающих данных.

Архитектура Gaze-LLE

Основные компоненты

Архитектура Gaze-LLE состоит из двух основных компонентов:

Замороженный энкодер сцены: Мы используем DINOv2, который предоставляет мощные визуальные функции, позволяя избежать необходимости в обучении отдельного энкодера.
Декодер целевого взгляда: Этот модуль обрабатывает функции, полученные от энкодера, и предсказывает тепловую карту взгляда, а также определяет, находится ли целевой объект в кадре.

Процесс передачи данных

Процесс начинается с извлечения функций из изображения с помощью замороженного энкодера DINOv2. Затем мы применяем позиционную подсказку, специфичную для человека, чтобы адаптировать выходные данные к конкретному человеку. Это позволяет декодеру эффективно предсказывать целевой взгляд, используя небольшое количество параметров.

Преимущества Gaze-LLE

Упрощение архитектуры: Использование единого энкодера вместо многофункциональных подходов упрощает структуру модели и снижает количество обучаемых параметров на порядок.
Эффективность обучения: Модель достигает состояния наилучшего искусства (SotA) с меньшими затратами времени на обучение, что делает ее более доступной для широкого применения.

Эксперименты и результаты

Дatasets

Мы проводим эксперименты на нескольких основных датасетах, включая GazeFollow и VideoAttentionTarget, которые являются стандартными для оценки целевого взгляда. Также мы тестируем модель на ChildPlay и GOO-Real для проверки обобщаемости.

Оценка производительности

Производительность модели оценивается с использованием метрик AUC (площадь под кривой) и L2 (евклидово расстояние между предсказанным и истинным целевым взглядом). Результаты показывают, что Gaze-LLE превосходит существующие методы по всем метрикам, при этом количество обучаемых параметров составляет всего 2.8 миллиона.

Ключевые решения в дизайне

Интеграция позиции головы

Одним из ключевых аспектов является то, как мы интегрируем позицию головы в архитектуру. Мы обнаружили, что добавление позиции головы после энкодера сцены дает лучшие результаты, чем традиционные методы, которые включают ее до этого этапа.

Декодирование функций

Мы исследовали различные подходы к декодированию функций, включая использование сверток и трансформеров. Результаты показывают, что трансформеры обеспечивают лучшее извлечение информации на дальние расстояния, что критически важно для оценки целевого взгляда.

Обсуждение и выводы

Наша работа демонстрирует, что использование замороженных энкодеров, таких как DINOv2, может значительно улучшить результаты оценки целевого взгляда. Gaze-LLE представляет собой эффективный и мощный подход, который может быть легко адаптирован для других задач в области компьютерного зрения.

Будущие направления

В будущем мы планируем исследовать возможность интеграции временной информации из видеопотока для повышения точности модели, особенно в сложных сценариях, где взгляды могут быть неоднозначными.

Заключение

Gaze-LLE открывает новые горизонты в оценке целевого взгляда, предлагая более простую и эффективную архитектуру, способную адаптироваться к различным задачам. Мы уверены, что этот подход станет основой для дальнейших исследований и разработок в области понимания человеческого поведения с помощью машинного обучения.

Статья на arxiv Оригинал pdf estimation pipeline gaze

Ай Дайджест