Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

Исследование дизайна пользовательских интерфейсов и методов взаимодействия в приложениях с генеративным ИИ

Применение генеративного ИИ стало чрезвычайно впечатляющим, и взаимодействие между пользователями и ИИ стало еще более значимым. Современная литература по взаимодействию человека с ИИ рассматривает в общем виде, как люди взаимодействуют с генеративным ИИ, однако она не углубляется в детали по поводу дизайна пользовательского интерфейса и паттернов, используемых для создания этих приложений. Поэтому мы представляем обзор, который всесторонне освещает таксономии взаимодействия человека с ИИ и паттерны пользовательского взаимодействия, разработанные для удовлетворения потребностей различных актуальных случаев использования. Мы в основном сосредотачиваемся на взаимодействиях, инициированных пользователем, изучая те, которые начинаются с действий пользователя и не включают в себя никакие неявные сигналы с его стороны. С помощью этого обзора мы стремимся создать справочник различных паттернов пользовательского взаимодействия, который может служить ориентиром как для дизайнеров, так и для разработчиков. В процессе этого мы также стремимся снизить порог входа для тех, кто хочет узнать больше о дизайне приложений генеративного ИИ.

HelloMeme: Интеграция пространственного вязания внимания для внедрения высококачественных и детализированных условий в модели диффузии

Мы предлагаем эффективный метод внедрения адаптеров в базовые модели преобразования текста в изображение, который позволяет выполнять сложные задачи на последующих этапах, сохраняя при этом способность базовой модели к обобщению. Основная идея данного метода заключается в оптимизации механизма внимания, связанного с 2D картами признаков, что улучшает производительность адаптера. Этот подход был проверен на задаче генерации мемов и показал значительные результаты. Мы надеемся, что эта работа может дать представление о задачах, выполняемых после обучения, для крупных моделей преобразования текста в изображение. Кроме того, поскольку этот метод демонстрирует хорошую совместимость с производными моделями SD1.5, он представляет определенную ценность для сообщества с открытым исходным кодом. Поэтому мы опубликуем соответствующий код (https://songkey.github.io/hellomeme).

OS-Atlas: Фундаментальная модель действий для универсальных GUI-агентов

Существующие усилия по созданию агентов графического интерфейса пользователя (GUI) сильно зависят от наличия надежных коммерческих моделей визуально-языкового взаимодействия (VLM), таких как GPT-4o и GeminiProVision. Практики часто неохотно используют открытые VLM из-за их значительного отставания в производительности по сравнению с закрытыми аналогами, особенно в задачах привязки к GUI и в сценариях, выходящих за рамки распределения (OOD). Для содействия будущим исследованиям в этой области мы разработали OS-Atlas - фундаментальную модель действий GUI, которая превосходно справляется с привязкой к GUI и агентными задачами OOD благодаря инновациям как в области данных, так и в моделировании. Мы вложили значительные инженерные усилия в разработку открытого инструментария для синтеза данных привязки к GUI на нескольких платформах, включая Windows, Linux, MacOS, Android и веб. Используя этот инструментарий, мы публикуем крупнейший на данный момент открытый кросс-платформенный корпус данных привязки GUI, который содержит более 13 миллионов элементов GUI. Это набор данных, в сочетании с инновациями в обучении моделей, обеспечивает прочную основу для OS-Atlas для понимания снимков экрана GUI и обобщения на невидимые интерфейсы. В ходе обширной оценки по шести эталонам, охватывающим три разные платформы (мобильные, настольные и веб), OS-Atlas демонстрирует значительные улучшения производительности по сравнению с предыдущими моделями, признанными лучшими. Наша оценка также выявляет ценные инсайты для постоянного улучшения и масштабирования агентных возможностей открытых VLM.

TOMATO: Оценка Визуально-Временных Способностей Мультимодальных Фундаментальных Моделей

Существующие эталонные тесты часто подчёркивают выдающуюся производительность, достигнутую передовыми мультимодальными базовыми моделями (MFMs) при использовании временного контекста для понимания видео. Однако насколько хорошо эти модели действительно справляются с визуальным временным рассуждением? Наше исследование существующих эталонных тестов показывает, что эта способность MFMs, вероятно, переоценена, поскольку многие вопросы можно решить, используя один, несколько или кадры вне порядка. Для систематического изучения текущих задач визуального временного рассуждения мы предлагаем три принципа с соответствующими метриками: (1) Прирост многокадрового изображения, (2) Чувствительность к порядку кадров и (3) Диспаритет информации кадров. Следуя этим принципам, мы представляем TOMATO, оценку временного рассуждения в мультимодальной среде, новый эталонный тест, созданный для строгой оценки способностей временного рассуждения MFMs в понимании видео. TOMATO включает 1484 тщательно отобранных, аннотированных человеком вопросов, охватывающих шесть задач (например, подсчет действий, направление, вращение, форма и тенденции, скорость и частота, визуальные подсказки), применённых к 1417 видео, включая 805 самозаписанных и сгенерированных видео, охватывающих антропоцентричные, реальные и симулированные сценарии. Наше всестороннее исследование выявляет разрыв в производительности между человеком и моделью на уровне 57,3% с лучшей моделью. Более того, наш глубокий анализ выявляет более фундаментальные ограничения за пределами этого разрыва в текущих MFMs. Хотя они могут точно распознавать события на изолированных кадрах, они не могут интерпретировать эти кадры как непрерывную последовательность. Мы считаем, что TOMATO станет важным полигоном для оценки следующего поколения MFMs и призовет сообщество к разработке систем ИИ, способных понимать динамику человеческого мира через видеорежим.

Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

Недавнее исследование arXiv:2410.15027 исследовало использование диффузионных трансформеров (DiTs) для генерации изображений, не зависящей от задачи, путем простого объединения токенов внимания между изображениями. Однако, несмотря на значительные вычислительные ресурсы, качество генерируемых изображений остается неоптимальным. В данном исследовании мы переоцениваем и оптимизируем эту систему, предполагая, что текстово-изображающие DiTs изначально обладают способностями к контекстно-зависимой генерации, требуя лишь минимальной настройки для их активации. Через разнообразные эксперименты с задачами мы качественно демонстрируем, что существующие текстово-изображающие DiTs могут эффективно выполнять контекстно-зависимую генерацию без какой-либо настройки. Основываясь на этом понимании, мы предлагаем удивительно простой конвейер для использования контекстных способностей DiTs: (1) объединять изображения вместо токенов, (2) проводить совместное описание нескольких изображений и (3) применять специфическую для задачи настройку LoRA с использованием небольших наборов данных (например, 20 символов, 100 образцов) вместо полной настройки параметров с большими наборами данных. Мы назвали наши модели In-Context LoRA (IC-LoRA). Этот подход не требует изменений в оригинальных моделях DiT, только изменения в обучающих данных. Удивительно, но наш конвейер генерирует наборы изображений высокого качества, которые лучше соответствуют запросам. Хотя он специфичен для задач в плане настройки данных, наша система остается не зависящей от задач в архитектуре и конвейере, предоставляя мощный инструмент для сообщества и предлагая ценные выводы для дальнейших исследований в области систем генерации, не зависящих от задач на уровне продукта. Мы публикуем наш код, данные и модели по адресу https://github.com/ali-vilab/In-Context-LoRA.

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

Персонализация крупных языковых моделей (LLM): Обзор

Персонализация крупных языковых моделей (LLM) в последнее время становится всё более важной благодаря широкому спектру применений. Несмотря на важность и недавние достижения, большинство существующих работ по персонализированным LLM сосредотачиваются либо полностью на (а) персонализированной генерации текста, либо на (б) использовании LLM для персонализированных приложений, таких как системы рекомендаций. В данной работе мы впервые мостим разрыв между этими двумя основными направлениями, вводя таксономию использования персонализированных LLM и суммируя ключевые различия и вызовы. Мы предлагаем формализацию основ персонализированных LLM, которая консолидирует и расширяет понятия персонализации LLM, определяя и обсуждая новые аспекты персонализации, использования и желаемых характеристик персонализированных LLM. Затем мы объединяем литературу по этим разнообразным областям и сценариям использования, предлагая систематические таксономии для уровня детализации персонализации, техник персонализации, наборов данных, методов оценки и применений персонализированных LLM. В заключение, мы выделяем вызовы и важные нерешённые проблемы, которые остаются актуальными. Объединяя и обозревая последние исследования с использованием предложенных таксономий, мы стремимся предоставить ясное руководство по существующей литературе и различным аспектам персонализации в LLM, поддерживая как исследователей, так и практиков.

WikiNER-fr-gold: Создание золотого стандарта для французского NER корпуса

В данной статье мы рассматриваем качество корпуса WikiNER, многоязычного корпуса для распознавания именованных сущностей, и предлагаем его консолидированную версию. Аннотация WikiNER была выполнена в полуавтоматическом режиме, то есть без последующей ручной проверки. Такой корпус называется серебряным стандартом. В данной работе мы представляем WikiNER-fr-gold, который является переработанной версией французской части WikiNER. Наш корпус состоит из случайно выбранных 20% исходного французского подкорпуса (26 818 предложений с 700 тысячами токенов). Мы начинаем с обобщения типов сущностей, включенных в каждую категорию, чтобы определить руководство по аннотации, а затем переходим к пересмотру корпуса. В заключение мы представляем анализ ошибок и несоответствий, обнаруженных в корпусе WikiNER-fr, и обсуждаем возможные направления будущих исследований.

Fashion-VDM: Видео Диффузионная Модель для Виртуальной Примерки

Мы представляем Fashion-VDM, модель диффузии видео (VDM) для создания виртуальных видео примерок. При наличии изображения одежды и видео с человеком наш метод стремится создать видео высокого качества, на котором человек примеряет данный предмет одежды, сохраняя при этом идентичность и движения человека. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующие методы виртуальной примерки видео (VVT) все еще испытывают недостаток в деталях одежды и временной согласованности. Чтобы решить эти проблемы, мы предлагаем архитектуру на основе диффузии для виртуальной примерки видео, разделенное руководство без классификатора для усиленного контроля над входными данными условий, а также стратегию постепенного временного обучения для генерации видео на 64 кадра, 512 пикселей за один проход. Мы также демонстрируем эффективность совместного обучения на изображениях и видео для виртуальной примерки, особенно когда доступно ограниченное количество видеоданных. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый стандарт для виртуальной примерки видео. Для дополнительных результатов посетите страницу нашего проекта: https://johannakarras.github.io/Fashion-VDM.

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

Постоянное ускорение потока: Новый подход к генерации данных с помощью ODE

Процедуры выпрямления потока и повторного потока значительно усовершенствовали быстрое создание изображений за счет постепенного выпрямления потоков обыкновенных дифференциальных уравнений (ODE). Они работают на основе предположения, что пары изображений и шума, известные как связи, могут быть аппроксимированы прямыми траекториями с постоянной скоростью. Однако мы замечаем, что моделирование с постоянной скоростью и использование процедур повторного потока имеют ограничения в точном изучении прямых траекторий между парами, что приводит к неоптимальной производительности при генерации за несколько шагов. Чтобы решить эти проблемы, мы представляем Поток Постоянного Ускорения (CAF), новую концепцию, основанную на простом уравнении постоянного ускорения. CAF вводит ускорение как дополнительную обучаемую переменную, что позволяет более выразительно и точно оценивать поток ODE. Кроме того, мы предлагаем два метода для дальнейшего улучшения точности оценки: начальное условие скорости для модели ускорения и процесс повторного потока для начальной скорости. Наши комплексные исследования на искусственных наборах данных, CIFAR-10 и ImageNet 64x64 показывают, что CAF превосходит существующие эталонные решения для генерации за один шаг. Мы также показываем, что CAF значительно улучшает сохранение пар и инверсию при малом числе шагов по сравнению с выпрямленным потоком. Код доступен по адресу https://github.com/mlvlab/CAF.

Разработка и анализ нового датасета GRS-QA для оценки способностей к многошаговому рассуждению LLM

Крупные языковые модели (LLM) преуспели в ответах на вопросы с несколькими этапами (M-QA) благодаря своим продвинутым способностям к рассуждению. Однако влияние встроенных структур рассуждений на производительность LLM в M-QA остается неясным, в значительной степени из-за отсутствия наборов данных QA, которые предоставляли бы детализированные структуры рассуждений. Чтобы восполнить этот пробел, мы представляем Набор данных для вопросно-ответной системы с графовыми структурами рассуждений (GRS-QA), который включает как семантические контексты, так и структуры рассуждений для пар вопрос-ответ. В отличие от существующих наборов данных M-QA, где различные структуры рассуждений переплетены, GRS-QA явно фиксирует сложные пути рассуждений, создавая графы рассуждений, где узлы представляют текстовые контексты, а связи обозначают логические потоки. Эти графы рассуждений различных структур позволяют детально оценить способности LLM к рассуждению на различных структурах рассуждений. Наш эмпирический анализ показывает, что LLM по-разному справляются с вопросами, имеющими различные структуры рассуждений. Это открытие способствует изучению текстовых структур в сравнении с семантикой.

Адаптация и обучение: Обоснование LLM для научных проблем с умным использованием инструментов

Большие языковые модели (LLMs) демонстрируют перспективные возможности для решения простых научных задач, но часто создают иллюзии при работе с более сложными. Интеграция LLM с инструментами может повысить надежность, но такой подход обычно приводит к чрезмерной зависимости от инструментов, что уменьшает способность модели решать простые задачи с помощью базового рассуждения. В отличие от этого, человеческие эксперты сначала оценивают сложность задачи, используя знания в своей области, прежде чем выбрать подходящее решение. Вдохновленные этим человеческим процессом решения проблем, мы предлагаем новый метод тонкой настройки с двумя компонентами. В первом компоненте, называемом Дистилляцией мирового знания (WKD), LLM учатся напрямую из решений, созданных с использованием информации инструментов, чтобы внутренне усвоить знания в определенной области. Во втором компоненте, Адаптация использования инструментов (TUA), мы разделяем задачи на простые и сложные категории на основе точности прямого ответа модели. Поддерживая ту же цель выравнивания для простых задач, как в WKD, мы обучаем модель разумно переключаться на использование инструментов для более сложных проблем. Мы проверяем наш метод на шести научных эталонных наборах данных, охватывающих математику, климатологию и эпидемиологию. В среднем наши модели показывают улучшение точности ответов на 28,18% и увеличение точности использования инструментов на 13,89% по всем наборам данных, превосходя современные модели, включая GPT-4o и Claude-3.5.

Физика в предсказании следующего токена: Передача информации и энергии в авто-регрессионных моделях

Мы открыли базовые физические принципы в предсказании следующего токена (NTP). Мы идентифицировали закон сохранения информации в NTP и предложили Первый закон информационной ёмкости (IC-1), демонстрирующий, что суть возникновения интеллекта в авторегрессионных моделях по своей сути является процессом передачи информации. Мы также ввели в NTP принцип Ландауэра, сформулировав Второй закон информационной ёмкости (IC-2), который устанавливает связь между обучением авторегрессионных моделей и потреблением энергии. Кроме того, мы представили несколько следствий, имеющих практическое значение для производственных практик. В заключение, мы подтвердили совместимость и дополняемость наших открытий с существующими теориями.

Пространство вложений слов: от теории к практике

Пространство вложений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задач. Мы указываем, что большинство подходов к моделированию, исправлению и измерению симметрии пространства вложений неявно предполагают, что частоты слов равномерны; на самом деле, частоты слов следуют крайне неравномерному распределению, известному как закон Ципфа. Удивительно, но простое применение взвешенного по эмпирической частоте слов PCA отбеливания, соответствующего закону Ципфа, значительно улучшает производительность задач, превосходя установленные базовые показатели. С теоретической точки зрения, как наш подход, так и существующие методы можно четко категоризировать: представления слов распределены в соответствии с экспоненциальной семьей с либо равномерными, либо цепфиановыми базовыми мерами. Приняв последний подход, мы можем естественным образом выделить информативные слова с низкой частотой с точки зрения их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также с точки зрения функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и языковые модели без головы, работают хорошо именно потому, что их словесные вложения закодировали эмпирическую частоту слов в лежащую в основе вероятностную модель.

Лицевая Анонимизация Упрощена: Инновационный Подход с Использованием Диффузионных Моделей

Современные методы анонимизации лиц часто зависят от оценки потери идентичности, рассчитываемой моделями распознавания лиц, что может быть неточным и ненадежным. Кроме того, многие методы требуют дополнительных данных, таких как ключевые точки лица и маски, для управления процессом синтеза. В отличие от них, наш подход использует модели диффузии, опираясь только на потерю реконструкции, что устраняет необходимость в использовании ключевых точек лица или масок, при этом все еще производя изображения с детализированными, мелкими деталями. Мы проверили наши результаты на двух общественных бенчмарках с помощью как количественных, так и качественных оценок. Наша модель достигает наилучших результатов в трех ключевых областях: анонимизация личности, сохранение атрибутов лица и качество изображения. Помимо основной функции анонимизации, наша модель также может выполнять задачи замены лица путем включения дополнительного изображения лица в качестве ввода, демонстрируя свою универсальность и потенциал для различных применений. Наш код и модели доступны по адресу https://github.com/hanweikung/face_anon_simple.

Городская Гауссиана V2: Эффективная и Геометрически Точная Реконструкция Больших Сцен

Недавно метод 3D Gaussian Splatting (3DGS) произвел революцию в реконструкции полей яркости, демонстрируя эффективный и высококачественный синтез новых видов. Однако точное представление поверхностей, особенно в больших и сложных сценариях, остается значительной проблемой из-за неструктурированной природы 3DGS. В данной статье мы представляем CityGaussianV2, новый подход к реконструкции крупномасштабных сцен, который решает критические проблемы, связанные с геометрической точностью и эффективностью. Опираясь на благоприятные обобщающие возможности 2D Gaussian Splatting (2DGS), мы решаем проблемы сходимости и масштабируемости. В частности, мы реализуем технику плотнения на основе разложения градиентов и регрессии глубины, чтобы устранить размытые артефакты и ускорить сходимость. Для масштабирования мы вводим фильтр удлинения, который смягчает взрывное увеличение количества гауссиан, вызванное деградацией 2DGS. Кроме того, мы оптимизировали пайплайн CityGaussian для параллельного обучения, достигнув сжатия до 10 раз, экономии времени обучения как минимум на 25% и снижения использования памяти на 50%. Мы также установили стандартные геометрические эталоны для крупномасштабных сцен. Экспериментальные результаты показывают, что наш метод обеспечивает обещающий баланс между качеством изображения, геометрической точностью, а также затратами на хранение и обучение. Страница проекта доступна по адресу https://dekuliutesla.github.io/CityGaussianV2/.

Случайная Авторегрессивная Визуализация

Вот перевод текста на русский: --- В данной статье представлена модель случайной авторегрессии (RAR) для визуальной генерации, которая устанавливает новый стандарт качества в задачах генерации изображений, при этом полностью сохраняя совместимость с фреймворками моделирования языка. Предложенная RAR проста: в ходе стандартного авторегрессивного обучения с целью предсказания следующего токена, входная последовательность, обычно упорядоченная в виде растрового изображения, случайным образом перемешивается в различные порядки факторизации с вероятностью r, где r начинается с 1 и линейно уменьшается до 0 в процессе обучения. Эта стратегия обучения с отжигом позволяет модели научиться максимизировать ожидаемую вероятность по всем порядкам факторизации, тем самым эффективно улучшая способность модели к моделированию двунаправленных контекстов. Важно отметить, что RAR сохраняет целостность авторегрессивного фреймворка, гарантируя полную совместимость с моделированием языка и значительно улучшая производительность в генерации изображений. На эталонном наборе данных ImageNet-256 RAR достигает FID-оценки 1.48, не только превосходя предыдущие авторегрессивные генераторы изображений, но и опережая ведущие методы на основе диффузии и маскированных трансформеров. Код и модели будут доступны по адресу https://github.com/bytedance/1d-tokenizer.