Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

SUGAR: Нулевая настройка видео на основе субъекта

Мы представляем SUGAR, метод нулевого выбора для настройки видео, основанный на субъекте. Учитывая входное изображение, SUGAR способен генерировать видео для субъекта, содержащегося на изображении, и согласовывать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанными текстом, вводимым пользователем. В отличие от предыдущих методов, которые требуют тонкой настройки во время тестирования или не могут генерировать видео, согласованное с текстом, SUGAR достигает превосходных результатов без необходимости в дополнительных затратах во время тестирования. Чтобы обеспечить возможность нулевого выбора, мы вводим масштабируемую систему для построения синтетического набора данных, специально разработанного для настройки, основанной на субъектах, что приводит к созданию 2,5 миллионов тройок изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и усовершенствованный алгоритм выборки. Проведено множество экспериментов. По сравнению с предыдущими методами SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и согласовании видео с текстом для настройки видео, основанной на субъекте, демонстрируя эффективность нашего предложенного метода.

VisDoM: Мультимодальное QA с визуально насыщенными элементами

Понимание информации из коллекции нескольких документов, особенно тех, которые содержат визуально насыщенные элементы, важно для ответа на вопросы, основанные на документах. Эта статья представляет VisDoMBench, первый всесторонний бенчмарк, предназначенный для оценки систем QA в условиях многодокументной среды с богатым мультимодальным контентом, включая таблицы, диаграммы и слайды презентаций. Мы предлагаем VisDoMRAG, новый многомодальный подход к увеличению извлечения (RAG), который одновременно использует визуальное и текстовое RAG, комбинируя надежные возможности визуального извлечения с сложным языковым рассуждением. VisDoMRAG использует многоступенчатый процесс рассуждения, охватывающий отбор доказательств и последовательное рассуждение для параллельных текстовых и визуальных RAG-потоков. Ключевым новшеством VisDoMRAG является его механизм слияния модальностей с ограничениями по согласованности, который согласует процессы рассуждения между модальностями в моментInference для получения связного окончательного ответа. Это приводит к повышенной точности в сценариях, где критическая информация распределена между модальностями, и улучшенной проверяемости ответов за счет неявной атрибуции контекста. Через обширные эксперименты с использованием открытых и проприетарных больших языковых моделей мы оценили современные методы документального QA на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит однородные и длинные контекстные базовые LLM на 12-20% в конце концов многомодального документального QA.

Устойчивость к исключениям в коде: Применение LLM и многоагентной системы Seeker

В реальной разработке программного обеспечения неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и устойчивость кода. Механизмы обработки исключений требуют от разработчиков выявления, захвата и управления исключениями в соответствии с высокими стандартами, однако многие разработчики сталкиваются с трудностями в этих задачах, что приводит к хрупкому коду. Эта проблема особенно очевидна в проектах с открытым исходным кодом и влияет на общее качество программного обеспечения. Чтобы решить эту проблему, мы исследуем использование больших языковых моделей (LLM) для улучшения обработки исключений в коде. В результате обширного анализа мы выявили три основные проблемы: нечувствительное обнаружение хрупкого кода, неточный захват блока исключений и искаженное решение по обработке. Эти проблемы распространены среди реальных репозиториев, что указывает на то, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ на это мы предлагаем Seeker, многоагентную структуру, вдохновленную стратегиями экспертных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Датчик, Хищник, Ранжировщик и Обработчик, чтобы помочь LLM более эффективно выявлять, захватывать и разрешать исключения. Наша работа является первым систематическим исследованием о том, как использовать LLM для улучшения практик обработки исключений в реальных сценариях разработки, предоставляя ценные идеи для будущих улучшений надежности кода.

Эмердженция абстракций: механизм кодирования и декодирования концептов для обучения в контексте в трансформерах

Люди дистиллируют сложные переживания в основные абстракции, которые позволяют быстрому обучению и адаптации. Аналогично, авторегрессивные трансформеры демонстрируют адаптивное обучение через обучение в контексте (ICL), что ставит вопрос о том, как. В этой статье мы предлагаем механизм кодирования-декодирования концепций, чтобы объяснить ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения малого трансформера и сообщаем о сопутствующем возникновении кодирования и декодирования концепций. Поскольку модель учится кодировать разные латентные концепции (например, "Поиск первого существительного в предложении.") в разные, отделимые представления, она одновременно строит условные алгоритмы декодирования и улучшает свою производительность ICL. Мы подтверждаем наличие этого механизма на предобученных моделях различного масштаба (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Далее, через механистические интервенции и контролируемую тонкую настройку, мы демонстрируем, что качество кодирования концепции причинно связано и предсказуемо для производительности ICL. Наши эмпирические выводы проливают свет на лучшее понимание успеха и режима неудач больших языковых моделей через их представления.

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

MIVE: Новый Подход и Бенчмарк для Мульти-Инстанционного Видеомонтажа

Недавние методы видеомонтажа на основе ИИ позволили пользователям редактировать видео с помощью простых текстовых подсказок, значительно упрощая процесс редактирования. Однако недавние методы видеомонтажа без предварительной тренировки в основном сосредоточены на глобальных изменениях или редактировании одного объекта, что может привести к нежелательным изменениям в других частях видео. Когда несколько объектов требуют локализованных изменений, существующие методы сталкиваются с такими проблемами, как неточное редактирование, утечка редактирования и нехватка подходящих датасетов и метрик для оценки. Чтобы преодолеть эти ограничения, мы предлагаем нулевую многокомпонентную видеомонтажную структуру, названную MIVE. MIVE — это универсальная маско-ориентированная структура, не предназначенная для конкретных объектов (например, людей). MIVE вводит два ключевых модуля: (i) Разделенное многокомпонентное выборка (DMS), чтобы предотвратить утечку редактирования, и (ii) Вероятностное перераспределение на основе объектов (IPR), чтобы обеспечить точную локализацию и достоверное редактирование. Кроме того, мы представляем наш новый датасет MIVE с разнообразными видеосценариями и вводим Оценку точности между экземплярами (CIA) для оценки утечки редактирования в задачах многокомпонентного видеомонтажа. Наши обширные качественные, количественные и пользовательские исследования демонстрируют, что MIVE значительно превосходит современные передовые методы по верности редактирования, точности и предотвращению утечек, устанавливая новый стандарт для многокомпонентного видеомонтажа. Страница проекта доступна по адресу https://kaist-viclab.github.io/mive-site/.

OmniEval: Новый стандарт оценки Retrieval-Augmented Generation в финансовой сфере

В качестве типичного и практического применения больших языковых моделей (LLMs) техники дополненной генерации (RAG) получили широкое внимание, особенно в вертикальных областях, где LLM могут не иметь специфических знаний по предмету. В этой статье мы представляем многоплановый и автоматический эталон RAG в финансовой сфере, OmniEval. Наш эталон характеризуется многоуровневой системой оценки, включая (1) систему оценки сценариев RAG на основе матрицы, которая классифицирует запросы на пять классов задач и 16 финансовых тем, что приводит к структурированной оценке различных сценариев запросов; (2) подход к генерации данных для многоуровневой оценки, который сочетает автоматическую генерацию на основе GPT-4 и аннотирование людьми, достигая коэффициента принятия 87,47% в оценках, проводимых людьми, на сгенерированных примерах; (3) многоуровневая система оценки, которая оценивает как производительность извлечения, так и генерации, что приводит к комплексной оценке трубопровода RAG; и (4) надежные метрики оценки, основанные на правилах и LLM, повышающие надежность оценок за счет ручных аннотаций и контролируемой тонкой настройки оценивателя LLM. Наши эксперименты демонтируют всесторонность OmniEval, который включает обширные тестовые наборы данных и подчеркивает вариации производительности систем RAG по различным темам и задачам, выявляя значительные возможности для RAG моделей улучшить свои способности в вертикальных областях. Мы открываем исходный код нашего эталона на https://github.com/RUC-NLPIR/OmniEval.

Возможности LLM в стабильном рассуждении: анализ G-Pass@k и LiveMathBench

Быстрый прогресс больших языковых моделей (LLM) продемонстрировал заметные достижения в сложных задачах рассуждения. Однако существует значительное несоответствие между эталонными показателями и реальными приложениями. Мы определяем этот разрыв как в первую очередь происходящий от текущих протоколов и метрик оценки, которые неадекватно отражают весь спектр возможностей LLM, особенно в сложных задачах рассуждения, где как точность, так и последовательность имеют решающее значение. Эта работа делает два ключевых вклада. Во-первых, мы представляем G-Pass@k, новую метрику оценки, которая предоставляет непрерывную оценку производительности модели по нескольким попыткам выборки, количественно оценивая как потенциал максимальной производительности модели, так и ее стабильность. Во-вторых, мы представляем LiveMathBench, динамическую эталонную базу, состоящую из сложных, современных математических задач, разработанных с целью минимизировать риски утечек данных во время оценки. Через обширные эксперименты с использованием G-Pass@k на современных LLM с LiveMathBench мы предоставляем всесторонние впечатления как о их максимальных возможностях, так и о операционной последовательности. Наши результаты показывают значительные возможности для улучшения «реалистичных» способностей рассуждения LLM, подчеркивая необходимость более надежных методов оценки. Эталон и детализированные результаты доступны по адресу: https://github.com/open-compass/GPassK.

Сжатая цепочка размышлений: эффективное рассуждение через плотные представления

Декодирование с цепочкой размышлений (CoT) позволяет языковым моделям улучшать эффективность рассуждений за счет высокой задержки генерации в декодировании. В недавних предложениях были изучены варианты токенов размышлений, термин, который мы вводим и который относится к специальным токенам, используемым во время вывода, чтобы позволить дополнительным вычислениям. Предыдущие работы рассматривали токены размышлений в виде последовательностей фиксированной длины, взятых из дискретного набора встраиваний. Здесь мы предлагаем Сжатую Цепочку Размышлений (CCoT) — структуру для генерации содержательных и непрерывных токенов размышлений переменной длины. Сгенерированные токены размышлений являются сжатыми представлениями явных цепочек рассуждений, и наш метод может быть применен к стандартным языковым моделям декодеров. В ходе экспериментов мы иллюстрируем, как CCoT позволяет дополнительные рассуждения над плотными содержательными представлениями, чтобы достичь соответствующих улучшений в точности. Более того, улучшения рассуждений могут быть адаптивно модифицированы по запросу путем контроля количества сгенерированных токенов размышлений.

FeathertheThrottle: Новые горизонты в ускорении визуально-языковых моделей

Недавние работы по ускорению моделей «зрение-язык» показывают, что высокая производительность может сохраняться в различных задачах «зрение-язык», несмотря на значительное сжатие визуальной информации. В данной работе мы изучаем популярный метод ускорения — раннее обрезание визуальных токенов внутри языковой модели — и обнаруживаем, что его высокая производительность по многим задачам не связана с исключительной способностью сжимать визуальную информацию, а скорее с ограниченной способностью оценки тестов к тонким визуальным навыкам. А именно, мы демонстрируем основную проблему с методом ускорения, когда большинство токенов в верхней части изображения отсекаются. Тем не менее, эта проблема отражается лишь на производительности для небольшой подсетки задач, таких как локализация. Для остальных оцениваемых задач высокая производительность сохраняется даже при недостатках стратегии обрезки. Учитывая ограниченные визуальные возможности изученной техники ускорения, мы предлагаем FEATHER (быстрое и эффективное ускорение с критерием ансамбля), простой подход, который (1) решает выявленную проблему с обрезкой на ранних слоях, (2) включает однородную выборку для обеспечения покрытия всех регионов изображения и (3) применяет обрезание в два этапа, чтобы критерии могли стать более эффективными на более поздней стадии, при этом достигая значительной экономии времени за счет обрезки на ранних слоях. При сопоставимых вычислительных затратах мы обнаруживаем, что FEATHER имеет более чем 5-кратное улучшение производительности на контрольных точках локализации, сосредоточенных на зрении, по сравнению с оригинальным методом ускорения.

Пропозер-Агент-Оценщик (PAE): Автономное открытие навыков для интернет-агентов на основе фундамента моделей

Видение широко способного и целенаправленного агента, например, агента для просмотра Интернета в цифровом мире и домашнего гуманоидного робота в физическом мире, быстро продвинулось благодаря способности обобщения основополагающих моделей. Такой универсальный агент должен обладать большим и разнообразным набором навыков, таких как нахождение маршрутов между двумя пунктами назначения и покупка конкретных товаров в Интернете. Если каждый навык необходимо указывать вручную через фиксированный набор аннотированных человеком инструкций, repertoire навыков агента будет обязательно ограничен из-за количества и разнообразия аннотированных человеком инструкций. В этой работе мы решаем эту задачу, предлагая систему Proposer-Agent-Evaluator (PAE), эффективную обучающую систему, которая позволяет агентам на основе основополагающих моделей самостоятельно открывать и практиковать навыки в дикой природе. В центре PAE находится контекстно-осведомленный предложитель задач, который автономно предлагает задачи для практики агента с учетом информации о контексте окружающей среды, такой как демонстрации пользователей или даже просто название самого веб-сайта для агентов просмотра Интернета. Затем политика агента пытается выполнить эти задачи с размышлениями и фактическими опирающимися на реальный мир операциями, а полученные траектории оцениваются автономным оценщиком успеха на основе VLM. Оценка успеха служит сигналом вознаграждения для агента, чтобы уточнить его политики через обучение с подкреплением (RL). Мы валидация PAE на сложной навигации по вебу на основе зрения, используя как реальные, так и саморазмещенные веб-сайты из WebVoyager и WebArena. Насколько нам известно, эта работа представляет собой первую эффективную обучающую систему, которая применяет автономное предложение задач с RL для агентов, обобщающих реальное основание, аннотированное человеком, с производительностью SOTA. Наши открытые контрольные точки и код можно найти на https://yanqval.github.io/PAE/.

Marigold-DC: Нулевое завершение глубины с помощью направленной диффузии

Завершение глубины улучшает разреженные измерения глубины в плотные карты глубины, используя обычное изображение в качестве руководства. Существующие методы для этой сильно неправильно поставленной задачи работают в жестко ограниченных условиях и, как правило, с трудом применяются к изображениям вне области обучения или когда доступные измерения глубины разреженные, неравномерно распределенные или с переменной плотностью. Вдохновленные недавними достижениями в оценке глубины по одному изображению, мы переосмысливаем завершение глубины как создание карты глубины, обусловленной изображением, основанной на разреженных измерениях. Наш метод, Marigold-DC, основывается на заранее обученной модели латентной диффузии для оценки глубины по одному изображению и вставляет наблюдения глубины в качестве руководства во время тестирования через схему оптимизации, которая работает параллельно с итеративным выводом диффузии денойзинга. Метод демонстрирует отличную обобщающую способность без обучения на разнообразном диапазоне сред и эффективно обрабатывает даже крайне разреженное руководство. Наши результаты предполагают, что современные приоритеты глубины по единому изображению значительно усиливают завершение глубины: возможно, лучше рассматривать задачу как восстановление плотной глубины из (плотных) пикселей изображения, с использованием разреженной глубины в качестве руководства; вместо того, чтобы рассматривать это как инпейтинг (разреженной) глубины, с использованием изображения в качестве руководства. Веб-сайт проекта: https://MarigoldDepthCompletion.github.io/