Свежая выжимка ml и AI статей - каждый день
Оценка целевого взгляда является важной задачей в области компьютерного зрения и машинного обучения, которая стремится предсказать, куда именно смотрит человек в сцене. Эта задача требует анализа как внешнего вида человека, так и содержимого окружающей среды. Ранее разработанные решения включали в себя сложные конвейеры, которые комбинировали функции из различных энкодеров, таких как энкодеры сцены и головы, а также вспомогательные модели для учета сигналов, таких как глубина и поза. В данной статье мы представляем Gaze-LLE (Gaze estimation via Large-scale Learned Encoders) — новый подход, который упрощает процесс оценки целевого взгляда, используя функции из замороженного энкодера DINOv2.
Оценка целевого взгляда — это задача, которая требует понимания намерений человека в контексте его взаимодействия с окружающим миром. Например, в повседневной жизни люди могут следовать взгляду других людей, чтобы понять, на что они обращают внимание. Эта способность критически важна для социальных взаимодействий и понимания человеческого поведения. Однако, традиционные подходы к оценке целевого взгляда страдают от сложности и ограниченности в масштабах обучающих данных.
Архитектура Gaze-LLE состоит из двух основных компонентов:
Процесс начинается с извлечения функций из изображения с помощью замороженного энкодера DINOv2. Затем мы применяем позиционную подсказку, специфичную для человека, чтобы адаптировать выходные данные к конкретному человеку. Это позволяет декодеру эффективно предсказывать целевой взгляд, используя небольшое количество параметров.
Мы проводим эксперименты на нескольких основных датасетах, включая GazeFollow и VideoAttentionTarget, которые являются стандартными для оценки целевого взгляда. Также мы тестируем модель на ChildPlay и GOO-Real для проверки обобщаемости.
Производительность модели оценивается с использованием метрик AUC (площадь под кривой) и L2 (евклидово расстояние между предсказанным и истинным целевым взглядом). Результаты показывают, что Gaze-LLE превосходит существующие методы по всем метрикам, при этом количество обучаемых параметров составляет всего 2.8 миллиона.
Одним из ключевых аспектов является то, как мы интегрируем позицию головы в архитектуру. Мы обнаружили, что добавление позиции головы после энкодера сцены дает лучшие результаты, чем традиционные методы, которые включают ее до этого этапа.
Мы исследовали различные подходы к декодированию функций, включая использование сверток и трансформеров. Результаты показывают, что трансформеры обеспечивают лучшее извлечение информации на дальние расстояния, что критически важно для оценки целевого взгляда.
Наша работа демонстрирует, что использование замороженных энкодеров, таких как DINOv2, может значительно улучшить результаты оценки целевого взгляда. Gaze-LLE представляет собой эффективный и мощный подход, который может быть легко адаптирован для других задач в области компьютерного зрения.
В будущем мы планируем исследовать возможность интеграции временной информации из видеопотока для повышения точности модели, особенно в сложных сценариях, где взгляды могут быть неоднозначными.
Gaze-LLE открывает новые горизонты в оценке целевого взгляда, предлагая более простую и эффективную архитектуру, способную адаптироваться к различным задачам. Мы уверены, что этот подход станет основой для дальнейших исследований и разработок в области понимания человеческого поведения с помощью машинного обучения.