Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "prompts"

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

GR,EA,T,ER: Как градиенты и reasoning улучшают производительность малых языковых моделей

Эффективность больших языковых моделей (LLMs) тесно связана с разработкой подсказок, что делает оптимизацию подсказок важной для повышения их производительности по широкому спектру задач. Многие существующие подходы к автоматизации проектирования подсказок полагаются исключительно на текстовую обратную связь, уточняя подсказки исключительно на основе ошибок вывода, выявленных большими, дорогостоящими вычислительными LLMs. К сожалению, более мелкие модели сталкиваются с трудностями при генерации качественной обратной связи, что приводит к полной зависимости от суждений крупных LLM. Более того, эти методы не используют более прямую и тонкую информацию, такую как градиенты, из-за работы исключительно в текстовом пространстве. С этой целью мы представляем GReaTer, новую технику оптимизации подсказок, которая непосредственно учитывает информацию о градиентах для специфического для задач рассуждения. Используя градиенты потерь задач, GReaTer позволяет самостоятельную оптимизацию подсказок для моделей языка с открытым исходным кодом и легковесных без необходимости в дорогостоящих закрытых LLM. Это позволяет производить высокопроизводительную оптимизацию подсказок без зависимости от массивных LLM, уменьшая разрыв между более мелкими моделями и сложным рассуждением, часто необходимым для доработки подсказок. Обширные оценки по различным задачам рассуждения, включая BBH, GSM8k и FOLIO, показывают, что GReaTer последовательно превосходит предыдущие передовые методы оптимизации подсказок, даже те, которые полагаются на мощные LLM. Дополнительно, подсказки, оптимизированные с помощью GReaTer, часто демонстрируют лучшую передаваемость и, в некоторых случаях, увеличивают производительность задач до уровней, сравнимых с или превышающих те, которые достигаются более крупными языковыми моделями, подчеркивая эффективность оптимизации подсказок, направленной на градиенты в процессе рассуждения. Код GReaTer доступен по адресу https://github.com/psunlpgroup/GreaTer.

Управление генерацией видео с помощью траекторий движения

Контроль движения имеет решающее значение для создания выразительного и увлекательного видеоконтента; однако большинство существующих моделей генерации видео в основном полагаются на текстовые подсказки для управления, что затрудняет захват нюансов динамических действий и временных композиций. С этой целью мы обучаем модель генерации видео, основанную на пространственно-временных разреженных или плотных траекториях движения. В отличие от предыдущих работ по условному движению, это гибкое представление может кодировать любое количество траекторий, специфичных для объектов или глобального движения сцены, и временно разреженное движение; благодаря своей гибкости мы называем это условие движущими подсказками. Хотя пользователи могут напрямую указывать разреженные траектории, мы также показываем, как переводить высокоуровневые запросы пользователей в детализированные, полу-плотные движущие подсказки, процесс, который мы называем расширением движущих подсказок. Мы демонстрируем универсальность нашего подхода через различные приложения, включая управление движением камеры и объектов, "взаимодействие" с изображением, передачу движения и редактирование изображений. Наши результаты демонстрируют возникающее поведение, такое как реалистичная физика, что предполагает потенциал движущих подсказок для неизучения видеомоделей и взаимодействия с будущими генеративными мировыми моделями. Наконец, мы проводим количественную оценку, исследование с участием людей и демонстрируем высокую эффективность. Результаты видео доступны на нашей веб-странице: https://motion-prompting.github.io/

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.