Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Morph: Бездвижный Фреймворк Оптимизации Физики для Генерации Человеческого Движения

Генерация человеческого движения играет жизненно важную роль в таких приложениях, как цифровые люди и управление гуманоидными роботами. Однако большинство существующих подходов игнорируют физические ограничения, что приводит к частому производству физически неправдоподобных движений с выраженными артефактами, такими как зависание и скольжение ног. В этой работе мы предлагаем Morph, систему оптимизации физики без движения, состоящую из генератора движений и модуля уточнения физики движений, для повышения физической правдоподобности без необходимости полагаться на дорогие данные реального мира. В частности, генератор движений отвечает за предоставление синтетических данных о движениях в большом масштабе, в то время как модуль уточнения физики движений использует эти синтетические данные для обучения имитатора движений в физическом симуляторе, обеспечивая физические ограничения для проекции шумных движений в физически правдоподобное пространство. Эти физически уточненные движения, в свою очередь, используются для дальнейшей тонкой настройки генератора движений, что дополнительно повышает его возможности. Эксперименты по задачам генерации текста в движение и музыки в танец показывают, что наша система достигает качественного уровня генерации движений, сохраняя при этом значительное улучшение физической правдоподобности.

AfriMed-QA: Панафриканский медицинский набор данных для вопросов и ответов

Недавние достижения в производительности больших языковых моделей (LLM) по медицинским тестам с выбором из нескольких вариантов (MCQ) вызвали интерес со стороны поставщиков медицинских услуг и пациентов по всему миру. Особенно в странах с низкими и средними доходами (LMIC), испытывающих острый дефицит врачей и нехватку специалистов, LLM предлагают потенциально масштабируемый способ улучшения доступа к медицинским услугам и снижения затрат. Однако их эффективность в Глобальном Юге, особенно на африканском континенте, еще предстоит установить. В этой работе мы представляем AfriMed-QA, первую крупномасштабную панаравиканскую английскую базу данных вопросов и ответов (QA) в области медицины, состоящую из 15 000 вопросов (открытых и закрытых), собранных из более чем 60 медицинских школ в 16 странах, охватывающих 32 медицинские специальности. Мы дополнительно оцениваем 30 LLM по нескольким критериям, включая правильность и демографическую предвзятость. Наши результаты показывают значительное различие в производительности между специальностями и регионами; производительность MCQ явно отстает от USMLE (MedQA). Мы обнаруживаем, что биомедицинские LLM уступают общим моделям, а меньшие модели LLM, ориентированные на крайние устройства, с трудом достигают проходного балла. Интересно, что человеческие оценки показывают устойчивое предпочтение потребителей к ответам и объяснениям LLM по сравнению с ответами клиницистов.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

Автоматическая генерация изображений из текста: ChatGen

Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

Долгосрочное извлечение ключевых фраз для длинных документов: Введение в LongKey

В эпоху информационного перегрузки ручная аннотация обширного и растущего корпуса документов и научных статей становится все менее практичной. Автоматизированное извлечение ключевых фраз решает эту задачу, идентифицируя представительные термины в текстах. Однако большинство существующих методов ориентированы на короткие документы (до 512 токенов), оставляя пробел в обработке длинных контекстов. В этой статье мы представляем LongKey, новую структуру для извлечения ключевых фраз из длинных документов, которая использует языковую модель на основе кодировщика для захвата сложных аспектов текста. LongKey использует эмбеддер с максимальным пуллингом для улучшения представления кандидатов на ключевые фразы. Проверенный на обширных наборах данных LDKP и шести разнообразных, невиданных наборах данных, LongKey постоянно превосходит существующие методы извлечения ключевых фраз на основе ненадзорного обучения и языковых моделей. Наши данные демонстрируют универсальность LongKey и его превосходную производительность, что является прогрессом в извлечении ключевых фраз для различных длин текстов и областей.

Critic-V: Улучшение Мультимодального Рассуждения в Моделях Языка и Зрения

Модели визуально-языкового моделирования (VLMs) продемонстрировали значительные достижения в задачах многомодального размышления. Однако они по-прежнему часто генерируют неточные или неуместные ответы из-за таких проблем, как галлюцинирующее понимание изображений или неосмысленные пути размышления. Чтобы справиться с этими проблемами, мы вводим Critic-V, новую структуру, вдохновленную парадигмой Actor-Critic, для повышения способности размышления VLMs. Эта структура расщепляет процесс размышления и процесс критики, интегрируя два независимых компонента: Reasoner, который генерирует пути размышления на основе визуальных и текстовых входных данных, и Critic, который предоставляет конструктивную критику для уточнения этих путей. В этом подходе Reasoner генерирует ответы на размышления в соответствии с текстовыми подсказками, которые могут итеративно развиваться как политика на основе обратной связи от Critic. Этот процесс взаимодействия теоретически основан на рамках обучения с подкреплением, где Critic предлагает критические замечания на естественном языке вместо скалярных наград, позволяя дать более тонкую обратную связь для повышения способности Reasoner в сложных задачах размышления. Модель Critic обучается с использованием Оптимизации Прямых Предпочтений (DPO), используя набор предпочтений критики, ранжированный по Награде на основе Правил (RBR), для улучшения своих критических возможностей. Результаты оценивания показывают, что структура Critic-V значительно превосходит существующие методы, включая GPT-4V, по 5 из 8 эталонов, особенно в отношении точности и эффективности размышлений. Сочетание динамической текстовой политики для Reasoner и конструктивной обратной связи от оптимизированного по предпочтениям Critic позволяет более надежный и чувствительный к контексту многомодальный процесс размышления. Наш подход предоставляет многообещающее решение для повышения надежности VLMs, улучшая их производительность в реальных приложениях с интенсивным размышлением, таких как автономное вождение и воплощенная интеллектуальность.

Virtual Try-Off: Новый Подход к Генерации Изображений Одежды с Использованием Диффузионных Моделей

В данной статье представлен Virtual Try-Off (VTOFF), новая задача, сосредоточенная на генерации стандартизированных изображений одежды из одиночных фотографий одетых людей. В отличие от традиционного виртуального примерки (VTON), который цифровым образом одевает моделей, VTOFF стремится извлечь каноническое изображение одежды, что ставит уникальные задачи в захвате формы, текстуры и сложных узоров одежды. Эта четко определенная цель делает VTOFF особенно эффективным для оценки точности реконструкции в генеративных моделях. Мы представляем TryOffDiff, модель, которая адаптирует Stable Diffusion с визуальной кондиционированием на основе SigLIP, чтобы обеспечить высокую точность и сохранение деталей. Эксперименты на модифицированном наборе данных VITON-HD показывают, что наш подход превосходит базовые методы, основанные на переносе поз и виртуальной примерке, с меньшим количеством шагов предварительной и последующей обработки. Наш анализ показывает, что традиционные метрики генерации изображений недостаточно хорошо оценивают качество реконструкции, что побуждает нас полагаться на DISTS для более точной оценки. Наши результаты подчеркивают потенциал VTOFF для улучшения изображения продукции в приложениях электронной коммерции, продвижения оценки генеративных моделей и вдохновения будущей работы по высокоточной реконструкции. Демонстрация, код и модели доступны по адресу: https://rizavelioglu.github.io/tryoffdiff/.