Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "gaze"

Gaze-LLE: Эффективная оценка целевого взгляда с помощью крупномасштабных обученных энкодеров

Мы рассматриваем проблему оценки целевого взгляда, которая направлена на предсказание того, куда смотрит человек в сцене. Для предсказания целевого взгляда человека требуется рассуждение как о внешнем виде человека, так и о содержании сцены. Ранее разработанные работы создали все более сложные ручные схемы для оценки целевого взгляда, которые тщательно объединяют признаки из различных кодировщиков сцен, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и положение. Побуждаемые успехом универсальных экстракторов признаков в различных визуальных задачах, мы предлагаем Gaze-LLE — новую трансформерную структуру, которая упрощает оценку целевого взгляда, используя признаки из замороженного DINOv2 кодировщика. Мы извлекаем одно представление признака для сцены и применяем специфичный для человека позиционный запрос для декодирования взгляда с помощью легковесного модуля. Мы демонстрируем передовые достижения в нескольких бенчмарках по оценке взгляда и предоставляем обширный анализ для проверки наших проектных решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

GazeGen: Революция в Визуальном Контенте с Помощью Взгляда

Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.

gazelatencyedge