GazeGen: Революция в Визуальном Контенте с Помощью Взгляда
Мы представляем GazeGen, систему взаимодействия пользователя, которая генерирует визуальный контент (изображения и видео) для местоположений, указанных взглядом пользователя. GazeGen позволяет интуитивно управлять визуальным контентом, нацеливаясь на области интереса с помощью взгляда. Используя передовые методы в области обнаружения объектов и генеративного ИИ, GazeGen выполняет управление добавлением/удалением изображений, их перемещением и изменением текстуры поверхности объектов на изображениях, а также преобразует статические изображения в видео. В основе GazeGen лежит агент DFT Gaze (Distilled and Fine-Tuned Gaze), ультралегкая модель с всего 281 тыс. параметров, которая обеспечивает точные прогнозы взгляда в реальном времени, адаптированные к индивидуальным особенностям глаз пользователя на компактных устройствах. GazeGen является первой системой, сочетающей генерацию визуального контента с оценкой взгляда в реальном времени, что стало возможным благодаря исключительно DFT Gaze. Эта оценка взгляда в реальном времени позволяет выполнять различные задачи генерации визуального контента, управляемые взглядом пользователя. Входные данные для DFT Gaze - это изображения глаз пользователя, в то время как входные данные для генерации визуального контента - это вид пользователя и предсказанная точка взгляда от DFT Gaze. Для эффективного прогнозирования взгляда мы получаем малую модель из большой модели (в 10 раз больше) через новаторские методы перегонки знаний и персональной адаптации. Мы интегрируем перегонку знаний с маскированным автоэнкодером, разрабатывая компактную, но мощную модель оценки взгляда. Эта модель дополнительно настраивается с помощью адаптеров, обеспечивая высокую точность и персонализированные прогнозы взгляда с минимальным вводом данных от пользователя. DFT Gaze гарантирует низкую задержку и точное отслеживание взгляда, поддерживая широкий спектр задач, управляемых взглядом. Мы подтверждаем производительность DFT Gaze на эталонных тестах AEA и OpenEDS2020, показывая низкую угловую ошибку взгляда и низкую задержку на краевом устройстве (Raspberry Pi 4). Кроме того, мы описываем приложения GazeGen, иллюстрируя его универсальность и эффективность в различных сценариях использования.