Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "models"

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

TheAgentCompany: Оценка возможностей агентов на основе LLM в реальных условиях

Мы взаимодействуем с компьютерами на ежедневной основе, будь то в повседневной жизни или на работе, и многие аспекты работы можно выполнять полностью с помощью доступа к компьютеру и интернету. В то же время, благодаря улучшениям в области больших языковых моделей (LLM) также произошло быстрое развитие агентов ИИ, которые взаимодействуют с окружающей средой и вносят изменения в нее. Но насколько эффективно ИИ-агенты помогают ускорять или даже автономно выполнять рабочие задачи? Ответ на этот вопрос имеет важные последствия как для промышленных компаний, стремящихся интегрировать ИИ в свои рабочие процессы, так и для экономической политики, чтобы понять, как внедрение ИИ может повлиять на рынок труда. Для оценки прогресса этих LLM-агентов в выполнении реальных профессиональных задач в данной работе мы представляем TheAgentCompany, настраиваемый бенчмарк для оценки ИИ-агентов, которые взаимодействуют с окружающим миром аналогично цифровым работникам: просматривая веб, пишущая код, запускающие программы и общающиеся с другими коллегами. Мы создаем замкнутую среду с внутренними веб-сайтами и данными, напоминающую среду небольшой программной компании, и создаем различные задачи, которые могут выполняться работниками такой компании. Мы тестируем базовых агентов, использующих как закрытые, так и открытые языковые модели (LM), и выясняем, что с помощью самого конкурентоспособного агента 24% задач могут быть выполнены автономно. Это рисует нюансированную картину автоматизации задач с помощью LM-агентов: в условиях, имитирующих реальное рабочее место, значительная часть более простых задач может быть решена автономно, но более сложные задачи на длительный срок все еще выходят за рамки возможностей текущих систем.

VisDoM: Мультимодальное QA с визуально насыщенными элементами

Понимание информации из коллекции нескольких документов, особенно тех, которые содержат визуально насыщенные элементы, важно для ответа на вопросы, основанные на документах. Эта статья представляет VisDoMBench, первый всесторонний бенчмарк, предназначенный для оценки систем QA в условиях многодокументной среды с богатым мультимодальным контентом, включая таблицы, диаграммы и слайды презентаций. Мы предлагаем VisDoMRAG, новый многомодальный подход к увеличению извлечения (RAG), который одновременно использует визуальное и текстовое RAG, комбинируя надежные возможности визуального извлечения с сложным языковым рассуждением. VisDoMRAG использует многоступенчатый процесс рассуждения, охватывающий отбор доказательств и последовательное рассуждение для параллельных текстовых и визуальных RAG-потоков. Ключевым новшеством VisDoMRAG является его механизм слияния модальностей с ограничениями по согласованности, который согласует процессы рассуждения между модальностями в моментInference для получения связного окончательного ответа. Это приводит к повышенной точности в сценариях, где критическая информация распределена между модальностями, и улучшенной проверяемости ответов за счет неявной атрибуции контекста. Через обширные эксперименты с использованием открытых и проприетарных больших языковых моделей мы оценили современные методы документального QA на VisDoMBench. Обширные результаты показывают, что VisDoMRAG превосходит однородные и длинные контекстные базовые LLM на 12-20% в конце концов многомодального документального QA.

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

Многомерные инсайты: оценка персонализации в больших мультимодальных моделях

Быстро развивающаяся область больших мультимодальных моделей (LMM) привела к появлению разнообразных моделей с выдающимися возможностями. Однако существующие эталоны не позволяют всесторонне, объективно и точно оценить, соответствуют ли LMM разнообразным потребностям людей в реальных сценариях. Чтобы преодолеть этот разрыв, мы предлагаем эталон Multi-Dimensional Insights (MDI), который включает более 500 изображений, охватывающих шесть распространенных сценариев человеческой жизни. Особенно стоит отметить, что MDI-Benchmark предлагает два важных преимущества по сравнению с существующими оценками: (1) Каждое изображение сопровождается двумя типами вопросов: простыми вопросами для оценки понимания модели изображения и сложными вопросами для оценки способности модели анализировать и рассуждать за пределами базового содержимого. (2) Признавая, что у людей разных возрастных групп есть разные потребности и перспективы при столкновении с одним и тем же сценарием, наш эталон стратифицирует вопросы на три возрастные категории: молодые люди, люди среднего возраста и пожилые люди. Этот дизайн позволяет подробно оценить возможности LMM в удовлетворении предпочтений и потребностей различных возрастных групп. С MDI-Benchmark сильная модель, такая как GPT-4o, достигает 79% точности по задачам, связанным с возрастом, что указывает на то, что существующие LMM все еще имеют значительное пространство для улучшения в решении реальных приложений. Глядя в будущее, мы предсказываем, что MDI-Benchmark откроет новые пути для адаптации персонализации в реальном мире в LMM. Данные и код оценки MDI-Benchmark доступны по адресу https://mdi-benchmark.github.io/.

Эффективная и адаптируемая система оценки визуальных генеративных моделей: концепция Evaluation Agent

Недавние достижения в области визуальных генеративных моделей позволили создавать высококачественные изображения и видеоматериалы, открывая разнообразные возможности применения. Тем не менее, оценка этих моделей часто требует выборки сотен или тысяч изображений или видеороликов, что делает процесс вычислительно затратным, особенно для моделей на основе диффузии, обладающих медленной выборкой. Более того, существующие методы оценки полагаются на жесткие конвейеры, которые игнорируют конкретные потребности пользователей и предоставляют числовые результаты без четких объяснений. В отличие от этого, люди могут быстро сформировать впечатление о возможностях модели, наблюдая всего лишь несколько образцов. Чтобы подражать этому, мы предлагаем структуру Evaluation Agent, которая использует похожие на человеческие стратегии для эффективных, динамичных, многораундных оценок, используя всего лишь несколько образцов за раунд, при этом предлагая детализированные, адаптированные под пользователей анализы. Она предлагает четыре ключевых преимущества: 1) эффективность, 2) возможность оценки, адаптированной к разнообразным потребностям пользователей, 3) объяснимость, выходящую за рамки единичных числовых оценок, и 4) масштабируемость для различных моделей и инструментов. Эксперименты показывают, что Evaluation Agent сокращает время оценки до 10% от традиционных методов, обеспечивая при этом сопоставимые результаты. Структура Evaluation Agent полностью открыта для обеспечения продвижения исследований в области визуальных генеративных моделей и их эффективной оценки.

BrushEdit: Инновационная платформа для редактирования изображений

Редактирование изображений значительно продвинулось с развитием диффузионных моделей, использующих как основанные на инверсии, так и основанные на инструкциях методы. Тем не менее, современные подходы, основанные на инверсии, сталкиваются с большими модификациями (например, добавлением или удалением объектов) из-за структурированного характера инверсионного шума, что затрудняет значительные изменения. В то же время, методы, основанные на инструкциях, часто ограничивают пользователей черным ящиком операций, ограничивая прямое взаимодействие для уточнения областей редактирования и интенсивности. Чтобы устранить эти ограничения, мы предлагаем BrushEdit, новую парадигму редактирования изображений, основанную на инпейнтинге и основанную на инструкциях, которая использует мультимодальные большие языковые модели (MLLM) и модели инпейнтинга изображений для обеспечения автономного, удобного для пользователя и интерактивного редактирования на основе свободных инструкций. В частности, мы разрабатываем систему, обеспечивающую редактирование свободных инструкций, интегрируя MLLM и двойную ветвь модели инпейнтинга изображений в рамках агентно-сотрудничающей структуры для выполнения классификации категорий редактирования, идентификации основных объектов, получения масок и инпейнтинга областей редактирования. Обширные эксперименты показывают, что наша структура эффективно комбинирует MLLM и модели инпейнтинга, достигая превосходных результатов по семи метрикам, включая сохранение регионов маски и согласованность эффекта редактирования.

SPAR: Улучшение следования инструкциям в больших языковых моделях

Следование инструкциям является фундаментальной способностью языковых моделей, требующей от модели распознавания даже самых тонких требований в инструкциях и точного отражения их в своем выводе. Такая способность хорошо подходит и часто оптимизируется методом обучения предпочтений. Однако существующие методы часто напрямую выбирают несколько независимых ответов от модели при создании пар предпочтений. Такая практика может вводить вариации в содержании, не имеющие отношения к тому, точно ли выполнена инструкция (например, разные выражения одной и той же семантики), мешая цели обучения моделей распознавать ключевые различия, ведущие к лучшему следованию инструкциям. В связи с этим мы представляем SPaR, структуру самоигры, интегрирующую деревоискающую саморефинацию, чтобы обеспечить действительные и сопоставимые пары предпочтений, свободные от отвлекающих факторов. Играя против самой себя, LLM использует стратегию деревоискаания, чтобы уточнить свои предыдущие ответы в отношении инструкции, минимизируя ненужные вариации. Наши эксперименты показывают, что модель LLaMA3-8B, обученная за три итерации под руководством SPaR, превосходит GPT-4-Turbo на эталонном испытании IFEval, не теряя общих способностей. Более того, SPaR демонстрирует многообещающую масштабируемость и переносимость, значительно улучшая модели, такие как GLM-4-9B и LLaMA3-70B. Мы также определяем, как масштабирование вывода в деревоискании повлияет на производительность модели. Наш код и данные доступны для общественности по адресу https://github.com/thu-coai/SPaR.

Простая трансформация для защиты данных в вертикальном федеративном обучении

Вертикальное федеративное обучение (VFL) нацелено на обеспечение совместного обучения глубоких моделей, сохраняя при этом защиту конфиденциальности. Тем не менее, процедура VFL все еще имеет компоненты, уязвимые к атакам со стороны недоброжелательных участников. В нашей работе мы рассматриваем атаки на восстановление признаков, общую угрозу, нацеленную на компрометацию входных данных. Мы теоретически утверждаем, что атаки на восстановление признаков не могут быть успешными без знания предварительного распределения данных. В результате мы демонстрируем, что даже простые трансформации архитектуры модели могут существенно повлиять на защиту входных данных во время VFL. Подтверждая эти выводы с помощью экспериментальных результатов, мы показываем, что модели на основе MLP устойчивы к современным атакам на восстановление признаков.

Меньшие языковые модели лучше эволюционеров инструкций

Настройка инструкций широко используется для раскрытия полного потенциала больших языковых моделей. Примечательно, что сложные и разнообразные инструкции имеют значительное значение, так как они могут эффективно согласовывать модели с различными задачами. Тем не менее, текущие подходы к созданию масштабных инструкций преимущественно отдают предпочтение мощным моделям, таким как GPT-4 или тем, у которых более 70 миллиардов параметров, основываясь на эмпирическом предположении о том, что такие большие языковые модели (LLM) по своей сути обладают улучшенными возможностями. В данном исследовании мы ставим под сомнение это распространенное предположение и проводим глубокое исследование потенциала меньших языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что меньшие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дальнейший анализ демонстрирует, что SLM обладают более широким пространством выходов во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также отмечаем, что существующие метрики не акцентируют внимание на воздействии инструкций. Таким образом, мы предлагаем IFD с учетом сложности инструкции (IC-IFD), который вводит сложность инструкции в оригинальную оценку IFD для более точной оценки эффективности данных инструкций. Наш исходный код доступен по адресу: https://github.com/HypherX/Evolution-Analysis

Понимание видео в больших мультимодальных моделях: Исследование Apollo

Несмотря на быструю интеграцию возможностей видеопонимания в большие мультимодальные модели (LMM), механизмы, лежащие в основе их видеоанализа, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без надлежащего обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, препятствует развитию видео-LMM. Для решения этой проблемы мы представляем всестороннее исследование, которое поможет выявить, что эффективно движет видеопониманием в LMM. Мы начинаем с критического анализа основных факторов, способствующих высоким вычислительным требованиям, связанным с исследованием видео-LMM, и обнаруживаем закон масштабирования согласованности, согласно которому проектные и учебные решения, принятые на меньших моделях и наборах данных (до критического размера), эффективно переносятся на большие модели. Используя эти идеи, мы исследовали множество специфических аспектов видео-LMM, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы показали, что выборка fps во время обучения значительно предпочтительнее равномерной выборки кадров и какие кодеры изображения лучше всего подходят для представления видео. Основанные на этих выводах, мы представляем Apollo, семейство современных LMM, которые демонстрируют превосходные результаты на разных размерах моделей. Наши модели могут эффективно воспринимать часовые видео, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющими 55.1 на LongVideoBench. Apollo-7B демонстрирует состояние искусства по сравнению с LMM 7B с 70.9 на MLVU и 63.3 на Video-MME.

SynerGen-VL: Путь к синергетическому пониманию и генерации изображений

Удивительный успех больших языковых моделей (LLM) распространился на мультимодальную область, достигнув выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке унифицированных многомодальных больших языковых моделей (MLLM), которые интегрируют эти возможности, показали обнадеживающие результаты. Однако существующие подходы часто включают сложные дизайны в архитектуре модели или в процессе обучения, что увеличивает трудности обучения и масштабирования модели. В этой статье мы предлагаем SynerGen-VL, простую, но мощную многомодальную большую языковую модель без энкодера, способную как к пониманию, так и к генерации изображений. Чтобы решить проблемы, выявленные в существующих унифицированных многомодальных моделях без энкодера, мы вводим механизм сворачивания токенов и стратегию прогрессивного выравнивания с использованием экспертов в области зрительного восприятия, которые эффективно поддерживают понимание изображений высокого разрешения, одновременно снижая сложность обучения. После обучения на крупных смешанных данных изображений и текста с унифицированной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих унифицированных MLLM без энкодера с сопоставимыми или меньшими размерами параметров и сокращает разрыв с задачами-специфическими моделями передового уровня, что подчеркивает многообещающий путь к будущим унифицированным MLLM. Наш код и модели будут опубликованы.

FluxSpace: Разделенное Семантическое Редактирование в Ректифицированных Потоковых Трансформерах

Модели исправленного потока стали доминирующим подходом в генерации изображений, демонстрируя впечатляющую способность к синтезу качественных изображений. Однако, несмотря на их эффективность в визуальной генерации, модели исправленного потока часто сталкиваются с трудностями в раздельном редактировании изображений. Это ограничение мешает возможности выполнять точные модификации, специфичные для атрибута, не затрагивая несвязанные аспекты изображения. В данной статье мы представляем FluxSpace, независимо от области метод редактирования изображений, использующий пространство представлений с возможностью контролировать семантику изображений, созданных исправленными потоковыми трансформерами, такими как Flux. Используя представления, полученные в трансформаторных блоках в рамках моделей исправленного потока, мы предлагаем набор семантически интерпретируемых представлений, которые позволяют выполнять широкий спектр задач редактирования изображений, от тонкого редактирования изображений до художественного создания. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности раздельного редактирования.

FreeScale: Разблокировка разрешения диффузионных моделей с помощью слияния масштабов без настройки

Визуальные диффузионные модели достигают замечательного прогресса, однако они обычно обучаются на ограниченных разрешениях из-за нехватки данных высокого разрешения и ограниченных вычислительных ресурсов, что сдерживает их способность генерировать изображения или видеоролики высокого качества на больших разрешениях. Недавние усилия исследовали стратегии без настройки, чтобы продемонстрировать неиспользованный потенциал генерации визуальных изображений более высокого разрешения с использованием предварительно обученных моделей. Однако эти методы все еще склонны к производству визуального контента низкого качества с повторяющимися паттернами. Ключевое препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение ее обучения, что приводит к нежелательным повторяющимся паттернам, возникшим из накопленных ошибок. Чтобы справиться с этой проблемой, мы предлагаем FreeScale, парадигму вывода без настройки, которая позволяет осуществлять генерацию визуального контента более высокого разрешения с помощью слияния масштабов. В частности, FreeScale обрабатывает информацию с разных восприимчивых масштабов, а затем сливает ее, извлекая необходимые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента более высокого разрешения как для моделей изображений, так и для видеомоделей. Особенно примечательно, что по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.

GR,EA,T,ER: Как градиенты и reasoning улучшают производительность малых языковых моделей

Эффективность больших языковых моделей (LLMs) тесно связана с разработкой подсказок, что делает оптимизацию подсказок важной для повышения их производительности по широкому спектру задач. Многие существующие подходы к автоматизации проектирования подсказок полагаются исключительно на текстовую обратную связь, уточняя подсказки исключительно на основе ошибок вывода, выявленных большими, дорогостоящими вычислительными LLMs. К сожалению, более мелкие модели сталкиваются с трудностями при генерации качественной обратной связи, что приводит к полной зависимости от суждений крупных LLM. Более того, эти методы не используют более прямую и тонкую информацию, такую как градиенты, из-за работы исключительно в текстовом пространстве. С этой целью мы представляем GReaTer, новую технику оптимизации подсказок, которая непосредственно учитывает информацию о градиентах для специфического для задач рассуждения. Используя градиенты потерь задач, GReaTer позволяет самостоятельную оптимизацию подсказок для моделей языка с открытым исходным кодом и легковесных без необходимости в дорогостоящих закрытых LLM. Это позволяет производить высокопроизводительную оптимизацию подсказок без зависимости от массивных LLM, уменьшая разрыв между более мелкими моделями и сложным рассуждением, часто необходимым для доработки подсказок. Обширные оценки по различным задачам рассуждения, включая BBH, GSM8k и FOLIO, показывают, что GReaTer последовательно превосходит предыдущие передовые методы оптимизации подсказок, даже те, которые полагаются на мощные LLM. Дополнительно, подсказки, оптимизированные с помощью GReaTer, часто демонстрируют лучшую передаваемость и, в некоторых случаях, увеличивают производительность задач до уровней, сравнимых с или превышающих те, которые достигаются более крупными языковыми моделями, подчеркивая эффективность оптимизации подсказок, направленной на градиенты в процессе рассуждения. Код GReaTer доступен по адресу https://github.com/psunlpgroup/GreaTer.

Word Sense Linking: Новая Эра в Разрешении Смысла Слов

Дисамбигация значений слов (WSD) – это задача ассоциации слова в данном контексте с его наиболее подходящим значением среди набора возможных кандидатов. Хотя в последнее время задача привлекла renewed интерес, и системы показывают результаты выше оценочного соглашения между аннотаторами, на момент написания она все еще испытывает трудности с поиском downstream приложений. Мы утверждаем, что одной из причин этого является сложность применения WSD к простому тексту. На самом деле, в стандартной формулировке модели работают при следующих предположениях: а) все диапазоны, которые необходимо дизамбигировать, были заранее определены, и б) предоставлены все возможные кандидатные значения каждого диапазона, что является требованиями, которые далеко не тривиальны. В этой работе мы представляем новую задачу, называемую связыванием значений слов (WSL), где, учитывая входной текст и справочник значений, системам необходимо как определить, какие диапазоны необходимо дизамбигировать, так и связать их с наиболее подходящим значением. Мы предлагаем архитектуру на основе трансформеров для задачи и тщательно оцениваем как ее производительность, так и производительность современных систем WSD, адаптированных к WSL, постепенно ослабляя предположения WSD. Мы надеемся, что наша работа будет способствовать более легкой интеграции лексической семантики в downstream приложения.

LoRACLR: Контрастивная Адаптация для Кастомизации Диффузионных Моделей

Недавние достижения в настройке текстов на изображения позволили создавать высококачественные, насыщенные контекстом персонализированные изображения, позволяя конкретным концепциям появляться в различных сценариях. Однако существующие методы сталкиваются с трудностями при комбинировании нескольких персонализированных моделей, что часто приводит к запутыванию атрибутов или требует отдельного обучения для сохранения уникальности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых настроена для конкретной концепции, в единую модель без дополнительной индивидуальной настройки. LoRACLR использует контрастивную задачу для выравнивания и объединения пространств весов этих моделей, обеспечивая совместимость при минимизации интерференции. Устанавливая четкие, но согласованные представления для каждой концепции, LoRACLR позволяет эффективно и масштабируемо композитировать модели для высококачественного синтеза изображений с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, что предоставляет новые возможности для персонализированной генерации изображений.

VisionArena: Новая эра взаимодействия пользователей с моделями визуального языка

С растущим принятием и возможностями моделей зрения-языка (VLM) возникает необходимость в контрольных показателях, которые отражают аутентичные взаимодействия пользователей с VLM. В ответ мы создаем VisionArena, набор данных из 230K реальных разговоров между пользователями и VLM. Собранный на платформе Chatbot Arena - открытой платформе, где пользователи взаимодействуют с VLM и подают голосование за предпочтения - VisionArena охватывает 73K уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подсета: VisionArena-Chat, 200K одиночных и многоповоротных разговоров между пользователем и VLM; VisionArena-Battle, 30K разговоров, сравнивающих двух анонимных VLM с голосами предпочтений пользователей; и VisionArena-Bench, автоматическая оценка из 500 различных пользовательских запросов, которые эффективно приближаются к живым рейтингам моделей Chatbot Arena. Кроме того, мы подчеркиваем виды вопросов, задаваемых пользователями, влияние стиля ответов на предпочтения и области, где модели часто терпят неудачу. Мы обнаруживаем, что задачи с открытым окончанием, такие как создание подписей и юмор, сильно зависят от стиля, а текущие VLM испытывают трудности с пространственным мышлением и планированием задач. Наконец, мы показываем, что дообучение той же основной модели на VisionArena-Chat превосходит Llava-Instruct-158K, с увеличением на 17 пунктов в MMMU и на 46 пунктов в оценке WildVision. Набор данных доступен на https://huggingface.co/lmarena-ai.

Влияние авторских материалов на большие языковые модели: Норвежская перспектива

Использование материалов с авторскими правами в обучении генеративных языковых моделей поднимает критически важные юридические и этические вопросы. В данной статье представлен фреймворк и результаты эмпирической оценки влияния материалов с авторскими правами на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на оценку моделей по разнообразным норвежским эталонам, в то время как художественные произведения, возможно, приводят к снижению производительности. Наши эксперименты могут способствовать созданию схемы компенсации для авторов, чьи работы вносят вклад в развитие ИИ.

R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В данной статье представлен RuleArena, новый и сложный ориентир, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам из реальной жизни в рассуждениях. Охватывая три практические области — сборы за багаж авиакомпаний, сделки НБА и налоговое законодательство — RuleArena оценивает мастерство LLM в обработке сложных инструкций на естественном языке, требующих понимания длинного контекста, логического рассуждения и точных математических расчетов. Две ключевые особенности отличают RuleArena от традиционных ориентиров на основе правил: (1) он выходит за пределы стандартных представлений логики первого порядка и (2) он основан на подлинных практических сценариях, предоставляя информацию о пригодности и надежности LLM для применения в реальных условиях. Наши результаты выявляют несколько заметных ограничений в LLM: (1) они испытывают трудности с идентификацией и применением соответствующих правил, часто путаясь в схожих, но различных регламентах, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом, они демонстрируют плохие результаты в тестировании. Эти результаты подчеркивают значительные проблемы в развитии возможностей рассуждения LLM на основе правил в реальных приложениях.

Генеративная Дензфикация: Обучение для Дензификации Гауссианов для Высококачественной Генерализуемой 3D Реконструкции

Обобщенные модели гауссовских сетей с прямой связью достигли значительного прогресса в разреженной 3D-реконструкции, используя предварительные знания из больших многовидовых наборов данных. Однако эти модели часто испытывают трудности при представлении деталей с высоким разрешением из-за ограниченного количества гауссов. Хотя стратегия увеличения плотности, используемая в оптимизации 3D гауссовского сплошного распыления (3D-GS), может быть адаптирована для моделей с прямой связью, она может быть не идеально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Уплотнённость, эффективный и обобщаемый метод уплотнения гауссов, генерируемых моделями с прямой связью. В отличие от стратегии уплотнения 3D-GS, которая итеративно делит и клонирует сырые параметры гаусса, наш метод повышает разрешение представлений признаков из моделей с прямой связью и генерирует соответствующие тонкие гауссы за один проход вперед, используя встроенные предварительные знания для повышения обобщения. Экспериментальные результаты по задачам реконструкции как на уровне объектов, так и на уровне сцен демонстрируют, что наш метод превосходит современные подходы с сопоставимыми или меньшими размерами моделей, достигая заметных улучшений в представлении тонких деталей.

3DSRBench: Комплексный Бенчмарк Пространственного Рассуждения в 3D

3D пространственное мышление – это способность анализировать и интерпретировать позиции, ориентации и пространственные отношения объектов в 3D-пространстве. Это позволяет моделям развивать всестороннее понимание 3D-сцены, что делает их применимыми для более широкого диапазона областей, таких как автономная навигация, робототехника и дополненная/виртуальная реальность. Несмотря на то, что крупные многомодальные модели (LMMs) добились значительного прогресса в широком диапазоне задач по пониманию изображений и видео, их способности выполнять 3D пространственное мышление на различных природных изображениях изучены меньше. В этой работе мы представляем первую всестороннюю оценку 3D пространственного мышления – 3DSRBench, с 2,772 вручную аннотированными парами визуальных вопросов-ответов по 12 типам вопросов. Мы проводим тщательную и надежную оценку возможностей 3D пространственного мышления, балансируя распределение данных и применяя новую стратегию FlipEval. Чтобы дополнительно изучить надежность 3D пространственного мышления относительно 3D-углов обзора камеры, наш 3DSRBench включает два поднабора с вопросами по 3D пространственному мышлению на парных изображениях с общими и необычными углами обзора. Мы исследуем широкий спектр открытых и собственных LMM, выявляя их ограничения в различных аспектах 3D осведомленности, таких как высота, ориентация, местоположение и многократное объектное мышление, а также их ухудшенные показатели на изображениях с необычными углами обзора камеры. Наш 3DSRBench предоставляет ценные данные и insights для будущего развития LMM с сильными возможностями 3D мышления. Наша проектная страница и набор данных доступны по адресу https://3dsrbench.github.io.

Экосистема BrowserGym для исследований веб-агентов

Экосистема BrowserGym отвечает на растущую необходимость в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, кто использует автоматизацию и большие языковые модели (LLM) для задач веб-взаимодействия. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя единое, подобное спортзалу окружение с четко определенными пространствами наблюдения и действия, облегчая стандартизированную оценку среди различных бенчмарков. В сочетании с AgentLab, дополнительной структурой, которая помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, одновременно обеспечивая последовательную оценку и всестороннее управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения мы проводим первый крупномасштабный эксперимент с веб-агентами, основанный на нескольких бенчмарках, и сравниваем производительность 6 современных LLM по всем бенчмаркам, в настоящее время доступным в BrowserGym. Среди прочих выводов, наши результаты подчеркивают большое несоответствие между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet занимает лидирующие позиции почти во всех бенчмарках, кроме задач, связанных с визуализацией, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что построение надежных и эффективных веб-агентов остается значительной проблемой из-за присущей сложности реальных веб-сред и ограничений текущих моделей.

Я не знаю: явное моделирование неопределенности с помощью токена [IDK]

Большие языковые модели известны тем, что они захватывают знания о реальном мире, что позволяет им преуспевать во многих последующих задачах. Несмотря на недавние достижения, эти модели все еще подвержены тому, что обычно называют «галлюцинациями», что приводит к тому, что они выдают нежелательный и фактически неправильный текст. В этой работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перемещает массу вероятностей к токену [IDK] для неправильных предсказаний. Этот подход позволяет модели явно выражать неопределенность в своих выходных данных. Мы оцениваем наш предложенный метод на нескольких архитектурах модели и фактических задачах. Мы обнаруживаем, что модели, обученные с нашим методом, способны выражать неопределенность в местах, где ранее они допускали ошибки, при этом теряя только небольшую часть закодированных знаний. Кроме того, мы проводим обширные аблационные исследования нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.

StreamChat: Интерактивное взаимодействие с потоковым видео

В данной статье представлен StreamChat — новый подход, который улучшает возможности взаимодействия Больших Мультимодальных Моделей (LMM) с потоковым видео-контентом. В сценариях взаимодействия с потоками существующие методы полагаются исключительно на визуальную информацию, доступную в момент, когда задаётся вопрос, что приводит к значительным задержкам, поскольку модель не осознает последующие изменения в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, гарантируя, что модель использует актуальный видео-контент на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых вводов, обеспечивая при этом эффективность вывода для потоковых взаимодействий. Более того, мы создаем новый плотный датасет инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты демонстрируют, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках для изображений и видео и демонстрирует превосходные возможности в сценариях потокового взаимодействия по сравнению с современными видео LMM.

GraPE: Генеративная платформа для композиционного T2I синтеза

Генерация текстов в изображения (T2I) достигла значительного прогресса с использованием диффузионных моделей, что позволяет создавать фотореалистичные изображения из текстовых подсказок. Несмотря на эти достижения, существующие методы по-прежнему сталкиваются с трудностями в выполнении сложных текстовых подсказок, особенно тех, которые требуют композиционного и многоступенчатого рассуждения. Учитывая такие сложные инструкции, модели SOTA часто делают ошибки в точном моделировании атрибутов объектов и их взаимосвязей. В этой работе мы представляем альтернативную парадигму для синтеза T2I, разлагая задачу сложной многоступенчатой генерации на три этапа: (a) Генерация: мы сначала создаем изображение, используя существующие диффузионные модели; (b) План: мы используем многомодальные модели языка (MLLM) для выявления ошибок в сгенерированном изображении, выраженных с точки зрения отдельных объектов и их свойств, и создаем последовательность корректирующих шагов, необходимых в виде плана редактирования; (c) Редактирование: мы используем существующие модели редактирования изображений, ориентированные на текст, для последовательного выполнения нашего плана редактирования над сгенерированным изображением для получения желаемого изображения, которое соответствует первоначальной инструкции. Наш подход получает свою силу из того факта, что он модульный по своей природе, не требует обучения и может применяться к любой комбинации моделей генерации и редактирования изображений. В качестве дополнительного вклада мы также разрабатываем модель, способную к композиционному редактированию, что дополнительно помогает улучшить общую точность нашего предложенного подхода. Наш метод гибко настраивает время вывода с производительностью на композиционных текстовых подсказках. Мы проводим обширную экспериментальную оценку на 3 бенчмарках и 10 моделях T2I, включая DALLE-3 и последнюю - SD-3.5-Large. Наш подход не только улучшает производительность моделей SOTA до 3 пунктов, но и сокращает разрыв в производительности между слабыми и сильными моделями. https://dair-iitd.github.io/GraPE/{https://dair-iitd.github.io/GraPE/}

Полностью открытый исходный код Moxin-LLM: Технический отчет

Недавно большие языковые модели (LLM) претерпели значительную трансформацию, отмеченную быстрым ростом как их популярности, так и возможностей. Ведущими в этой эволюции являются проприетарные LLM, такие как GPT-4 и GPT-01, которые привлекли широкое внимание в сообществе ИИ благодаря своим выдающимся показателям и универсальности. Одновременно открытые LLM, такие как LLaMA и Mistral, внесли большой вклад в постоянно растущую популярность LLM благодаря легкости настройки и развертывания моделей в различных приложениях. Хотя открытые LLM предоставляют беспрецедентные возможности для инноваций и исследований, коммерциализация LLM вызвала опасения по поводу прозрачности, воспроизводимости и безопасности. Многие открытые LLM не соответствуют основным требованиям прозрачности, удерживая важные компоненты, такие как код и данные для обучения, а некоторые используют ограничительные лицензии, утверждая, что они "открытые", что может препятствовать дальнейшим инновациям в области LLM. Чтобы смягчить эту проблему, мы представляем Moxin 7B, полностью открытый LLM, разработанный в соответствии с рамками открытости моделей (MOF), системой ранговой классификации, которая оценивает модели ИИ на основе полноты модели и открытости, соблюдая принципы открытой науки, открытого исходного кода, открытых данных и открытого доступа. Наша модель достигает самого высокого уровня классификации MOF "открытая наука" благодаря комплексному выпуску кода и конфигураций дообучения, наборов данных для обучения и тонкой настройки, а также промежуточных и конечных контрольных точек. Эксперименты показывают, что наша модель демонстрирует превосходные результаты в нулевом тестировании по сравнению с популярными 7B моделями и показывает конкурентные результаты в тестировании с малым количеством примеров.

Проект P-ROCESS-BENCH: Автоматизация выявления ошибок в математическом рассуждении

Поскольку языковые модели регулярно делают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждения становится все более значимой для их масштабируемого контроля. В данной статье мы представляем ProcessBench для оценки способности идентифицировать ошибочные шаги в математическом рассуждении. Он состоит из 3400 тестовых случаев, в основном сосредоточенных на задачах математики уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с аннотированным местом ошибки, отмеченным человеческими экспертами. Модели должны идентифицировать самый ранний шаг, содержащий ошибку, или сделать вывод о том, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели вознаграждения процесса (PRMs) и модели критиков, где для последних мы просим общие языковые модели критиковать каждое решение шаг за шагом. Мы делаем два основных наблюдения: (1) Существующие PRMs, как правило, не могут обобщать более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям критиков (т.е. запрошенным общим языковым моделям), так и нашей собранной PRM, которая явно донастраивается на наборе данных PRM800K. (2) Лучшая открытая модель, QwQ-32B-Preview, продемонстрировала способность к критике на уровне соперничающим с проприетарной моделью GPT-4o, несмотря на то, что она все еще отстает от специализированной модели рассуждений o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в области оценки процесса рассуждений, прокладывая путь к масштабируемому контролю языковых моделей.

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

Moto: Латентные токены движения как связующий язык для манипуляции роботами

Недавние разработки в области больших языковых моделей, предобученных на обширных корпусах, продемонстрировали значительные успехи в различных задачах обработки естественного языка с минимальной донастройкой. Этот успех открывает новые перспективы для робототехники, которая долгое время была ограничена высокой стоимостью данными с метками действий. Мы задаемся вопросом: учитывая обилие видео данных, содержащих знания, связанные с взаимодействием и доступных в качестве богатого "корпуса", можно ли эффективно применить аналогичный подход генеративного предобучения для улучшения обучения роботов? Ключевая задача заключается в том, чтобы определить эффективное представление для авторегрессионного предобучения, которое выгодно для задач манипуляции роботами. Вдохновленные тем, как люди осваивают новые навыки, наблюдая за динамическими окружениями, мы предлагаем, что эффективное обучение роботов должно подчеркивать знание, связанное с движением, которое тесно связано с низкоуровневыми действиями и является аппаратно-независимым, что облегчает перенос изученных движений на реальные действия робота. Для этой цели мы представляем Moto, который преобразует видеоконтент в скрытые последовательности токенов движения с помощью Латентного Токенизатора Движения, изучая мостовой "язык" движения из видео ненаблюдаемым образом. Мы предобучаем Moto-GPT через авторегрессию токенов движения, позволяя ему захватывать разнообразные визуальные знания о движении. После предобучения Moto-GPT демонстрирует многообещающую способность производить семантически интерпретируемые токены движения, предсказывать правдоподобные траектории движения и оценивать рациональность траекторий через вероятность вывода. Для переноса усвоенных предварительных знаний о движении на реальные действия робота мы реализуем стратегию совместной донастройки, которая бесшовно соединяет предсказание латентных токенов движения и управление реальным роботом. Обширные эксперименты показывают, что донастроенный Moto-GPT демонстрирует превосходную устойчивость и эффективность на бенчмарках манипуляции роботами, подчеркивая его эффективность в переносе знаний с видеоданных на последующие задачи визуальной манипуляции.

EXAONE 3.5: Новые горизонты для больших языковых моделей

Этот технический отчет представляет модели языков EXAONE 3.5, настроенные на выполнение инструкций, разработанные и выпущенные исследовательской командой LG AI. Модели языка EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися способностями: 1) исключительные возможности следования инструкциям в реальных сценариях, достигающие наивысших баллов по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигающее лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с современными открытыми моделями аналогичного размера по девяти общим бенчмаркам. Модели языка EXAONE 3.5 открыты для всех в исследовательских целях и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальной контактной точкой LG AI Research: [email protected].

KV-Shifting Attention: Новая Эра в Языковом Моделировании

Современные крупные языковые модели в основном основаны на структуре трансформеров только декодирования, которые обладают отличными способностями к обучению в контексте (ICL). Общее мнение заключается в том, что важной основой её способности ICL является механизм индукционных голов, который требует как минимум два слоя внимания. Чтобы более эффективно реализовать способность индукции модели, мы пересматриваем механизм индукционных голов и предлагаем внимание с перемещением KV. Мы теоретически доказываем, что внимание с перемещением KV снижает требования модели к глубине и ширине механизма индукционных голов. Наши экспериментальные результаты демонстрируют, что внимание с перемещением KV благоприятно сказывается на обучении индукционных голов и языковом моделировании, что приводит к лучшей производительности или более быстрой сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 миллиардами параметров.

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

Дискриминативная дообучаемость больших моделях зрения и языка (LVLM)

Контрастно обученные модели зрения и языка (VLM), такие как CLIP, стали де-факто подходом для обучения предствления зрения и языка с учетом различий. Однако у этих моделей ограниченное понимание языка, которое часто проявляется в поведении «мешка слов». В то же время крупные модели зрения и языка (LVLM), которые комбинируют кодировщики зрения с большими языковыми моделями (LLM), показали свою способность к детальному рассуждению на основе зрения и языка, но их авторегрессивная природа делает их менее подходящими для дискриминационных задач. В этой работе мы предлагаем комбинировать «лучшее из обоих миров»: новый подход к обучению для дискриминационной тонкой настройки LVLM, который обеспечивает сильные способности к различению и композиции. В основном, наш подход преобразует генеративную LVLM в дискриминационную, разблокируя ее возможности для мощного различения изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную обучающую/оптимизационную структуру, которая использует пары изображений и текста переменной длины и тонкости для обучения модели с учетом контрастной потери и потерь предсказания следующего токена. Это сопровождается абляционными исследованиями, которые обосновывают необходимость компонентов нашей структуры. (2) Эффективный метод адаптации параметров с использованием комбинации мягкого запроса и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями подобными CLIP схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные улучшения в композиционности.

VisionZip: Устранение избыточности визуальных токенов в моделях "визуальный-язык"

Недавние достижения в моделях связи «визуальный-язык» повысили эффективность, увеличив длину визуальных токенов, сделав их значительно длиннее текстовых токенов и значительно увеличив вычислительные затраты. Тем не менее, мы наблюдаем, что визуальные токены, созданные популярными визуальными энкодерами, такими как CLIP и SigLIP, содержат значительную избыточность. Чтобы решить эту проблему, мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для подачи в языковую модель, уменьшая визуальную токенизаторную избыточность и улучшая эффективность при сохранении производительности модели. Предложенный VisionZip может широко применяться к задачам понимания изображений и видео и хорошо подходит для многоповоротных диалогов в реальных сценариях, где предыдущие методы, как правило, показывают низкие результаты. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий самый лучший метод как минимум на 5% в производительности во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительного заполнения в 8 раз и позволяя модели LLaVA-Next 13B выводить быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто на увеличении длины токенов. Наш код доступен на https://github.com/dvlab-research/VisionZip .

Нойз-рефайн: Эффективный подход к генерации изображений без использования методов управления

Модели диффузии отлично справляются с генерацией высококачественных изображений. Однако современные модели диффузии испытывают трудности с получением надежных изображений без методов управления, таких как управление без классификатора (CFG). Действительно ли методы управления необходимы? Наблюдая, что шум, полученный через инверсию диффузии, может восстанавливать высококачественные изображения без управления, мы сосредотачиваемся на начальном шуме в процессе ухания. Переводя гауссовский шум в "шум без управления", мы обнаруживаем, что небольшие компоненты с низкой амплитудой и низкой частотой значительно улучшают процесс ухания, избавляя от необходимости в управлении и тем самым улучшая как пропускную способность вывода, так и память. Расширяя эту тему, мы предлагаем extit{наше}, новый метод, который заменяет методы управления одним уточнением начального шума. Этот уточненный шум позволяет генерировать высококачественные изображения без управления в рамках того же потока диффузии. Наша модель уточнения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и сильных показателей с всего лишь 50K пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как уточненный шум может устранить необходимость в управлении. Смотрите нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

Установление законов масштабирования задач через эффективные модели лестницы

Мы разрабатываем законы масштабирования задач и модели «лестницы», чтобы предсказать индивидуальные показатели работы предварительно обученных языковых моделей (LMs) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно смоделировать производительность задачи. Поэтому мы используем двухэтапный подход к предсказанию: сначала используем размер модели и данных для предсказания потерь, специфичных для задачи, а затем используем эти потери задачи для предсказания производительности задачи. Мы обучаем набор маломасштабных моделей «лестниц», собираем точки данных для подгонки параметризованных функций двух этапов предсказания и делаем предсказания для двух целевых моделей: модели на 7 миллиардов параметров, обученной на 4 триллионах токенов, и модели на 13 миллиардов параметров, обученной на 5 триллионах токенов. Обучение моделей лестницы стоит всего 1% затрат вычислений, использованных для целевых моделей. На четырех задачах с множественным выбором, написанных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с абсолютной ошибкой в пределах 2 пунктов. У нас более высокая ошибка предсказания по четырем другим задачам (средняя абсолютная ошибка 6,9), и мы находим, что это часто задачи с более высокой дисперсией метрических характеристик. Мы также обнаруживаем, что использование меньшего количества вычислений для обучения меньшего количества моделей лестницы, как правило, ухудшает предсказания. Наконец, мы эмпирически показываем, что наши проектные решения и двухэтапный подход приводят к превосходной производительности в установлении законов масштабирования.

Mimir: Улучшение моделей диффузии видео для точного понимания текста

Текст служит ключевым контрольным сигналом в генерации видео благодаря своей нарративной природе. Чтобы преобразовать текстовые описания в видеоклипы, современные модели диффузии видео заимствуют функции от текстовых энкодеров, однако сталкиваются с ограниченной компетентностью в прочтении текста. Недавний успех больших языковых моделей (LLMs) демонстрирует силу трансформеров только декодера, которые предлагают три ясные преимущества для генерации текста в видео (T2V), а именно: точное понимание текста, вытекающее из превосходной масштабируемости, воображение, выходящее за пределы входного текста, обеспеченное предсказанием следующего токена, и гибкость в приоритете интересов пользователя через настройку инструкций. Тем не менее, разрыв в распределении функций, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLMs в устоявшихся T2V моделях. Эта работа решает эту проблему с помощью Mimir, конца в конец обучающей структуры с тщательно подобранным фьюзером токенов для гармонизации результатов работы текстовых энкодеров и LLMs. Такое обещание позволяет T2V модели полностью использовать изученные видео-примеры, одновременно эксплуатируя текстовые возможности LLMs. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в генерации высококачественных видео с отличным пониманием текста, особенно при обработке коротких заголовков и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/

Эффективное завершение сцен LiDAR с помощью метода дистилляции ScoreLiDAR

Модели диффузии были применены для завершения сцен 3D LiDAR благодаря их высокой стабильности обучения и качеству завершения. Однако медленная скорость выборки ограничивает практическое применение моделей завершения сцен на основе диффузии, поскольку автономным транспортным средствам требуется эффективное восприятие окружающей среды. В этой статье предлагается новый метод дистилляции, адаптированный для моделей завершения сцен 3D LiDAR, названный ScoreLiDAR, который достигает эффективного и качественного завершения сцен. ScoreLiDAR позволяет дистиллированной модели выбирать значительно меньше шагов после дистилляции. Для улучшения качества завершения мы также вводим новую Структурную Потерю, которая побуждает дистиллированную модель захватывать геометрическую структуру сцены 3D LiDAR. Потеря содержит терм, ограничивающий целостную структуру сцены, и точечный терм, ограничивающий ключевые контрольные точки и их относительную конфигурацию. Обширные эксперименты показывают, что ScoreLiDAR значительно ускоряет время завершения с 30,55 до 5,37 секунд на кадр (>5 раз) на SemanticKITTI и достигает превосходной производительности по сравнению с современными моделями завершения сцен 3D LiDAR. Наш код доступен по адресу https://github.com/happyw1nd/ScoreLiDAR.

NVComposer: Новая эра в синтезе новых видов

Недавние достижения в области генеративных моделей значительно улучшили синтез новых видов (NVS) из многовидовых данных. Однако существующие методы зависят от внешних процессов выравнивания многовидовых данных, таких как явная оценка позы или предварительное восстановление, что ограничивает их гибкость и доступность, особенно когда выравнивание нестабильно из-за недостаточного перекрытия или遮挡 между видами. В этой статье мы предлагаем NVComposer, новый подход, который устраняет необходимость в явном внешнем выравнивании. NVComposer позволяет генеративной модели неявно выводить пространственные и геометрические отношения между несколькими условными видами, вводя два ключевых компонента: 1) двуканальную диффузионную модель изображения-позы, которая одновременно генерирует целевые новые виды и условия позы камеры, и 2) модуль выравнивания признаков с учетом геометрии, который извлекает геометрические приоритеты из плотных стереомоделей во время обучения. Обширные эксперименты демонстрируют, что NVComposer достигает передовой производительности в задачах генеративного многовидового NVS, устраняя зависимость от внешнего выравнивания и тем самым улучшая доступность модели. Наш подход показывает значительные улучшения в качестве синтеза по мере увеличения числа вводимых видов без позы, подчеркивая его потенциал для более гибких и доступных генеративных NVS-систем.

Video-3D LLM: Понимание 3D-сцен с помощью видео-репрезентаций

Быстрое развитие многомодальных больших языковых моделей (MLLM) значительно повлияло на различные многомодальные задачи. Однако эти модели сталкиваются с трудностями в задачах, которые требуют пространственного понимания в 3D-средах. Были предприняты усилия по улучшению MLLM, такие как внедрение признаков облака точек, однако остается значительный разрыв между изученными моделями представлениями и врожденной сложностью 3D-сцен. Это несоответствие в значительной степени обусловлено обучением MLLM на преимущественно 2D-данных, что ограничивает их эффективность в понимании 3D-пространств. Чтобы решить эту проблему, в данной работе мы предлагаем новую универсальную модель, т.е. Video-3D LLM, для понимания 3D-сцен. Рассматривая 3D-сцены как динамические видео и внедряя 3D-кодирование позиций в эти представления, наша Video-3D LLM более точно согласовывает представления видео с реальными пространственными контекстами. Кроме того, мы реализовали технику максимального охвата выборки для оптимизации баланса между вычислительными затратами и эффективностью производительности. Обширные эксперименты показывают, что наша модель достигает передового уровня производительности на нескольких эталонах понимания 3D-сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

Важность Критических Токенов: Как Контрастная Оценка на Уровне Токенов Улучшает Способности Рассуждения LLM

Большие языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах логического вывода. Они используют автогенерацию токенов для построения логических траекторий, что позволяет развивать связную цепь мысли. В данной работе мы исследуем влияние отдельных токенов на конечные результаты логических задач. Мы выявляем существование "критических токенов", которые приводят к неправильным логическим траекториям в LLM. В частности, мы обнаруживаем, что LLM склонны давать положительные результаты, когда их заставляют декодировать другие токены вместо критических токенов. Вдохновленные этим наблюдением, мы предлагаем новый подход - cDPO, предназначенный для автоматического распознавания и проведения вознаграждений на уровне токенов для критических токенов во время процесса согласования. В частности, мы разрабатываем подход к контрастивной оценке для автоматического выявления критических токенов. Это достигается путем сравнения вероятности генерации положительных и отрицательных моделей. Для достижения этой цели мы отдельно дообучаем положительные и отрицательные модели на различных логических траекториях, в результате чего они способны выявлять критические токены внутри неправильных траекторий, которые способствуют ошибочным результатам. Более того, чтобы дополнительно согласовать модель с информацией о критических токенах во время процесса согласования, мы расширяем обычные алгоритмы DPO до DPO на уровне токенов и используем дифференциальную вероятность от вышеупомянутых положительных и отрицательных моделей в качестве важного веса для обучения DPO на уровне токенов. Экспериментальные результаты на базах данных GSM8K и MATH500 с двумя широко используемыми моделями Llama-3 (8B и 70B) и deepseek-math (7B) демонстрируют эффективность предложенного подхода cDPO.

VideoLights: Совершенствование обнаружения видео-выделений и извлечения моментов

Обнаружение видеогармонии и извлечение моментов (HD/MR) имеют важное значение в анализе видео. Недавние модели предсказания, основанные на трансформерах, часто упускают из виду динамику между задачами и согласование и уточнение видео и текста. Более того, большинство моделей обычно используют ограниченные однонаправленные механизмы внимания, что приводит к слабо интегрированным представлениям и неоптимальным показателям в захвате взаимозависимости между видео и текстовыми модальностями. Хотя большие языковые и языковые-видевые модели (LLM/LVLMs) стали более заметными в различных областях, их применение в этой области остаётся относительно недостаточно исследованным. Мы предлагаем VideoLights, новую HD/MR платформу, которая решает эти ограничения через (i) полноразмерные модули проекции и уточнения функций с потерей согласования для лучшего согласования видео-текстовых функций, (ii) двунаправленную сеть кросс-модального слияния для сильно связанного запроса с учетом представлений клипов, и (iii) однонаправленный механизм обратной связи для совместных задач, который усиливает обе задачи через корреляцию. В дополнение к этому, (iv) мы вводим жёсткие положительные/отрицательные потери для адаптивного штрафования ошибок и улучшенного обучения, и (v) используем LVLMs, такие как BLIP-2, для улучшенной мультимодальной интеграции функций и интеллектуального предварительного обучения с использованием синтетических данных, сгенерированных из LVLMs. Обширные эксперименты на бенчмарках QVHighlights, TVSum и Charades-STA демонстрируют состояние на индексе состояния. Код и модели доступны на https://github.com/dpaul06/VideoLights.

AV-OdysseyBench: Понимают ли ваши мультимодальные LLM действительно аудиовизуальную информацию?

Недавно мультимодальные большие языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включая визуальные и аудиомодальности. Хотя эти модели демонстрируют впечатляющие результаты в широком спектре аудиовизуальных приложений, наш предложенный DeafTest показывает, что MLLM часто испытывают трудности с простыми задачами, которые люди считают тривиальными: 1) определить, какой из двух звуков громче, и 2) определить, какой из двух звуков имеет более высокий тон. Мотивированные этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает 4555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудиокомпоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудиовходов. Чтобы обеспечить точную и объективную оценку ответов MLLM, мы структурировали вопросы в формате множественного выбора, что устраняет необходимость в человеческой оценке или оценке с помощью LLM. Мы оцениваем ряд закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезную информацию для будущего сбора данных и разработки моделей.

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

Генерация рабочих процессов с помощью декомпозиции задач и RAG: Путь к низкокодовым решениям

Технологии ИИ быстро переходят от исследований к производству. С ростом популярности Фундаментальных Моделей (FM), которые генерируют текст, изображения и видео, сложность систем на основе ИИ возрастает. По сравнению с традиционным программным обеспечением на основе ИИ, системы, использующие FM или системы на основе генеративного ИИ (GenAI), более сложны в проектировании из-за их масштаба и универсальности. Это делает необходимым документирование лучших практик, известных как проектные шаблоны в программной инженерии, которые могут быть использованы в различных приложениях GenAI. Нашим первым вкладом является формализация двух техник, Разложение задач и Генерация с дополнением данных (RAG), как проектных шаблонов для систем на основе GenAI. Мы обсуждаем их компромиссы в контексте атрибутов качества программного обеспечения и комментируем альтернативные подходы. Мы рекомендуем практикам ИИ рассматривать эти техники не только с научной точки зрения, но и с точки зрения желаемых инженерных свойств, таких как гибкость, поддерживаемость, безопасность и защита. В качестве второго вклада мы описываем наш опыт работы в отрасли, применяя Разложение задач и RAG для создания сложного реального приложения GenAI для корпоративных пользователей: Генерация рабочих процессов. Задача генерации рабочих процессов включает в себя создание конкретного плана с использованием данных из системной среды, принимая в качестве входного параметра требования пользователя. Поскольку эти два шаблона влияют на весь цикл разработки ИИ, мы объясняем, как они повлияли на создание датасета, обучение модели, оценку модели и этапы развертывания.

MALT: Улучшение рассуждений с помощью обучения многоагентных LLM

Включение эффективного сотрудничества между LLM является важным шагом к разработке автономных систем, способных решать сложные задачи. Хотя LLM обычно используются как генераторы с единой моделью, где люди критикуют и уточняют их результаты, потенциал совместно обученных коллаборативных моделей остается в значительной степени неизученным. Несмотря на многообещающие результаты в многоагентной коммуникации и дебатах, мало что было сделано для обучения моделей работать вместе над задачами. В этой статье мы представляем первый шаг к "Обучению многоагентных LLM" (MALT) по решению задач на рассуждения. Наш подход использует последовательную многоагентную конфигурацию с гетерогенными LLM, которым назначены специализированные роли: генератор, проверяющий и модель уточнения, которые итеративно решают задачи. Мы предлагаем процесс генерации синтетических данных на основе расширения траектории и стратегию распределения кредитов, основанную на вознаграждениях, ориентированных на общий результат. Это позволяет нашей настройке после обучения использовать как положительные, так и отрицательные траектории для автономного улучшения специализированных возможностей каждой модели в рамках совместной последовательной системы. Мы оцениваем наш подход на примерах MATH, GSM8k и CQA, где MALT на моделях Llama 3.1 8B достигает относительных улучшений в 14,14%, 7,12% и 9,40% соответственно по сравнению с той же базовой моделью. Это демонстрирует ранний прогресс в многоагентных кооперативных способностях для выполнения математических задач и вопросов общего смысла. В более общем плане, наша работа предоставляет конкретное направление для исследований в области подходов к обучению многоагентных LLM.

Управление моделями исправленного потока в векторном поле для контролируемой генерации изображений

Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, под руководством без классификаторов и техник инверсии изображений. Однако исправленные модель потока (RFM) остаются недостаточно исследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением для предобученных латентных моделей, имеют низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В этой работе мы сначала разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM в эффективном управлении траекторией денойзинга. Наши результаты показывают, что мы можем управлять векторным полем детерминированным и без градиентов образом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией денойзинга для контролируемых задач генерации изображений, осуществляемых с помощью пропуска градиентов. FlowChef является единым фреймворком для контролируемой генерации изображений, который, впервые, одновременно решает задачи управления классификаторами, линейные обратные задачи и редактирование изображений без необходимости в дополнительном обучении, инверсии или интенсивном обратном распространении. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным требованиям, достигая новых передовых результатов. Страница проекта: https://flowchef.github.io.

X-Prompt: К универсальной генерации изображений в контексте

Генерация в контексте является ключевым компонентом способности больших языковых моделей (LLM) к обобщению в открытых задачах. Используя несколько примеров в качестве контекста, LLM могут выполнять задачи как в своей области, так и за ее пределами. Недавние достижения в области авто-регрессионных моделей, сочетающих язык и визуальные данные (VLM), основанных на LLM, продемонстрировали впечатляющую эффективность в генерации текста в изображения. Однако потенциал обучения в контексте для генерации изображений в целом остается в значительной степени неосвещенным. Чтобы решить эту проблему, мы представляем X-Prompt — чисто авто-регрессионную крупную языковую модель для обработки визуальных данных, разработанную для обеспечения конкурентоспособной производительности в широком диапазоне задач генерации изображений как видимых, так и невидимых, в рамках единой структуры обучения в контексте. X-Prompt включает в себя специализированный дизайн, который эффективно сжимает ценные признаки из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая свою способность обобщать на незнакомые задачи. Единая задача обучения как для текстового, так и для визуального предсказания позволяет X-Prompt справляться с генерацией изображений в общем с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты проверяют производительность модели по разнообразным задачам генерации видимых изображений и ее способность обобщать на ранее невидимые задачи.

Улучшение надежности верификации говорящего с помощью синтетических эмоциональных высказываний

Система верификации говорящего (SV) предлагает услугу аутентификации, предназначенную для подтверждения того, принадлежит ли данный образец речи конкретному говорящему. Эта технология открыла путь для различных персонализированных приложений, которые учитывают индивидуальные предпочтения. Кажущейся задачей, с которой сталкиваются системы SV, является их способность последовательно работать в диапазоне эмоциональных спектров. Большинство существующих моделей демонстрируют высокие показатели ошибок при работе с эмоциональными высказываниями по сравнению с нейтральными. В результате это явление часто приводит к пропуску речи, представляющей интерес. Эта проблема в первую очередь связана с ограниченной доступностью помеченных данных эмоциональной речи, что препятствует разработке надежных представлений говорящих, охватывающих различные эмоциональные состояния. Чтобы решить эту проблему, мы предлагаем новый подход, использующий фреймворк CycleGAN в качестве метода увеличения данных. Эта техника синтезирует эмоциональные сегменты речи для каждого конкретного говорящего, сохраняя уникальную вокальную идентичность. Наши экспериментальные результаты подчеркивают эффективность включения синтетических эмоциональных данных в процесс обучения. Модели, обученные с использованием этого увеличенного набора данных, последовательно превосходят базовые модели в задаче верификации говорящих в сценариях эмоциональной речи, снижая равную вероятность ошибки до 3,64%.

Видеодиффузия с учетом мира: концепция WVD и ее применение

Недавние достижения в области моделей диффузии установили новые эталоны в генерации изображений и видео, позволяя реалистично синтезировать визуальные данные как в одном кадре, так и в многокадровом контексте. Однако эти модели по-прежнему сталкиваются с трудностями при эффективной и явной генерации содержания, согласованного в 3D. Чтобы решить эту задачу, мы предлагаем World-consistent Video Diffusion (WVD), новую концепцию, которая включает явный 3D-контроль с использованием изображений XYZ, которые кодируют глобальные 3D-координаты для каждого пикселя изображения. Более конкретно, мы обучаем диффузионный трансформер для изучения совместного распределения RGB и XYZ кадров. Этот подход поддерживает многозадачную адаптивность с помощью гибкой стратегии инпейнтинга. Например, WVD может оценивать кадры XYZ из истинных данных RGB или генерировать новые RGB-кадры, используя проекции XYZ вдоль заданной траектории камеры. Благодаря этому WVD объединяет такие задачи, как генерация 3D из одного изображения, стереозрение с нескольких ракурсов и генерация видео под управлением камеры. Наш подход демонстрирует конкурентоспособную производительность на нескольких эталонах, предоставляя масштабируемое решение для генерации видео и изображений, согласованных в 3D, с использованием одной предобученной модели.

Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Создание аналогий является основополагающим для когнитивной деятельности. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки языковых и когнитивных способностей. Например, завершение аналогий типа "Кислород относится к Газу, как <пусто> относится к <пусто>" требует выявления семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В этой работе мы представляем набор данных из 15 тысяч многовариантных вопросов (MCQA) для завершения пропорциональных аналогий и оцениваем производительность современных крупных языковых моделей (LLM) в различных настройках с усилением знаний. В частности, мы дополняем подсказки тремя типами знаний: образцом, структурированным и целевым. Наши результаты показывают, что, несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM, причем лучшая модель достигает точности 55%. Примечательно, что мы находим, что предоставление целевого знания может лучше помочь моделям в завершении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

Превышение примеров: Высокоуровневая автоматизированная парадигма рассуждений в контексте обучения с использованием MCTS

Обучение в контексте (ICL) позволяет крупным языковым моделям (LLMs) справляться с последующими задачами с помощью сложного запроса и качественных демонстраций. Однако эта традиционная парадигма ICL демонстрирует ограничения при выполнении сложных математических задач, что в основном связано с ее сильной зависимостью от качества примеров и необходимостью вмешательства человека в сложных сценариях. Для решения этих ограничений в данной статье представлена HiAR-ICL, парадигма высокого уровня автоматизированного вывода в ICL, которая переносит акцент с конкретных примеров на абстрактные мыслительные паттерны, расширяя традиционное понятие контекста в ICL. HiAR-ICL вводит пять атомарных логических действий в качестве основных компонентов для построения цепочечных структур. Используя алгоритм поиска по дереву Монте-Карло, мы исследуем логические пути и создаем мыслительные карты для дальнейшего руководства выводами. Затем мы разрабатываем структуру когнитивной сложности, которая динамически сопоставляет задачи с соответствующими мыслительными картами. Экспериментальные результаты демонстрируют эффективность HiAR-ICL, достигая передового уровня точности (79,6%) на контрольном наборе MATH с Qwen2.5-7B-Instruct, превосходя GPT-4o (76,6%) и Claude 3.5 (71,1%).

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

MATATA: Математическое инструментальное обоснование для табличных приложений

Способности к математическому рассуждению увеличиваются с инструментально расширенными языковыми агентами, но методы часто основываются либо на закрытых источниках, либо на больших моделях, внешних данных или обширной инженерии подсказок. Эта работа представляет MATATA, новый рентабельный метод обучения агентов LLM для задач с табличными данными через рассуждение, планирование и использование инструментов. С помощью прогрессивной парадигмы самоулучшения и итеративного слабого надзора она расширяет возможности малых языковых моделей (SLMs) на 3.8B/8B, особенно подходящих для локального хостинга и чувствительных бизнес-контекстов, где конфиденциальность данных имеет решающее значение. Используя гибкие и многоразовые инструменты на различных наборах данных, она достигает надежных результатов с эффективной масштабируемостью в рамках совместных задач. Эксперименты показывают, что MATATA достигает передовых показателей на FinQA и TAT-QA среди фреймворков рассуждений на основе моделей с открытым исходным кодом. Более того, модели MATATA конкурируют с фреймворками на основе GPT-4 на TabMWP, оставаясь малым языковым моделям.

Автоматическая генерация изображений из текста: ChatGen

Несмотря на значительные достижения в области генеративных моделей текст-в-изображение (T2I), пользователи часто сталкиваются с проблемами практического применения, которые требуют проб и ошибок. Эта проблема обусловлена сложностью и неопределенностью утомительных шагов, таких как создание подходящих запросов, выбор соответствующих моделей и настройка конкретных параметров, что приводит к необходимости затратных усилий для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая нацелена на автоматизацию этих утомительных шагов, позволяя пользователям просто описывать свои потребности в разговорной манере. Чтобы систематически изучить эту проблему, мы сначала представляем ChatGenBench, новый бенчмарк, разработанный для автоматического T2I. Он содержит высококачественные парные данные с различными запросами в свободном стиле, что позволяет всесторонне оценивать модели автоматического T2I на всех этапах. Кроме того, признавая автоматический T2I как сложную задачу многоступенчатого рассуждения, мы предлагаем ChatGen-Evo, многоэтапную стратегию эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. В результате обширной оценки по точности на каждом этапе и качеству изображений, ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также раскрывает ценные идеи для продвижения автоматического T2I. Все наши данные, код и модели будут доступны по адресу https://chengyou-jia.github.io/ChatGen-Home.

Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models

Модели диффузии достигли впечатляющих результатов в генеративных задачах, таких как синтез текста в изображение (T2I) и текст в видео (T2V). Однако достижение точного соответствия текста в генерации T2V остается сложной задачей из-за сложной временной зависимости между кадрами. Существующие подходы на основе обучения с подкреплением (RL) для улучшения текстового соответствия часто требуют дифференцируемых функций вознаграждения или ограничиваются ограниченными подсказками, что ограничивает их масштабируемость и применимость. В этой статье мы предлагаем Free^2Guide, новую систему без градиентов для выравнивания сгенерированных видео с текстовыми подсказками без необходимости дополнительного обучения модели. Используя принципы интегрального управления путем, Free^2Guide приближает руководство для моделей диффузии, используя недифференцируемые функции вознаграждения, что позволяет интегрировать мощные черные ящики большие модели языка и изображения (LVLM) в качестве модели вознаграждения. Кроме того, наша структура поддерживает гибкое объединение нескольких моделей вознаграждения, включая модели на основе изображений большого масштаба, для синергетического улучшения соответствия без значительных вычислительных затрат. Мы демонстрируем, что Free^2Guide значительно улучшает текстовое соответствие в различных измерениях и повышает общее качество сгенерированных видео.

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

Введение в VL-RewardBench: Новый стандарт для оценки моделей вознаграждения в области зрения и языка

Модели вознаграждения на основе визуально-языкового генеративного подхода (VL-GenRMs) играют ключевую роль в согласовании и оценке многомодальных систем ИИ, однако их собственная оценка остается недостаточно исследованной. Текущие методы оценки в основном полагаются на метки предпочтений, аннотированные ИИ, из традиционных задач VL, что может вносить предвзятость и часто не способно эффективно проверять модели на передовом уровне. Чтобы преодолеть эти ограничения, мы представляем VL-RewardBench, комплексный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи по рассуждению. С помощью нашего пайплайна аннотации с участием ИИ, который сочетает выбор образцов с человеческой верификацией, мы собрали 1250 высококачественных примеров, специально разработанных для выявления ограничений моделей. Комплексная оценка 16 ведущих крупных визуально-языковых моделей показала, что VL-RewardBench является эффективной тестовой площадкой, где даже GPT-4o достигает только 65,4% точности, а передовые открытые модели, такие как Qwen2-VL-72B, едва превышают уровень случайного угадывания. Важно отметить, что результаты на VL-RewardBench сильно коррелируют (корреляция Пирсона > 0.9) с точностью MMMU-Pro при использовании отбора Best-of-N с VL-GenRMs. Экспериментальный анализ выявил три ключевых инсайта для улучшения VL-GenRMs: (i) модели в основном терпят неудачу на базовых задачах визуального восприятия, а не на задачах рассуждения; (ii) преимущества масштабирования в момент вывода значительно различаются в зависимости от емкости модели; и (iii) обучение VL-GenRMs для оценки значительно повышает способность к судейству (+14,7% точности для VL-GenRM на 7B). Мы считаем, что VL-RewardBench вместе с полученными экспериментальными данными станет ценным ресурсом для развития VL-GenRMs.

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

Пути на образном многообразии: Редактирование изображений через генерацию видео

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, продемонстрировали замечательный прогресс. Однако остаются значительные вызовы, поскольку эти модели часто сталкиваются с трудностями при точном выполнении сложных инструкций по редактированию и часто нарушают верность изображения, изменяя ключевые элементы оригинального изображения. Одновременно с этим, генерация видео сделала заметные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В этой статье мы предлагаем объединить эти две области, используя модели преобразования изображения в видео для редактирования изображений. Мы переосмысливаем редактирование изображений как временной процесс, используя предварительно обученные видеомодели для создания плавных переходов от оригинального изображения к желаемому редактированию. Этот подход обеспечивает непрерывное перемещение по пространству изображений, гарантируя последовательные изменения при сохранении ключевых аспектов оригинального изображения. Наш подход достиг результата на уровне лучших в своем классе для текстового редактирования изображений, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

Эффективная токенизация длинных видеороликов с помощью координатно-основанной реконструкции патчей

Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одно из перспективных направлений - разработка токенизатора, способного кодировать длинные видеофрагменты, что позволило бы токенизатору лучше использовать временную когерентность видео для токенизации. Однако, обучение существующих токенизаторов на длинных видео часто влечет за собой огромные затраты на обучение, так как они обучены на восстановлении всех кадров одновременно. В данной статье мы представляем CoordTok, токенизатор видео, который учится преобразовывать представления на основе координат в соответствующие патчи входных видео, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в фрагментированные трехплоскостные представления и восстанавливает патчи, соответствующие случайно выбранным координатам (x,y,t). Это позволяет обучать большие модели токенизаторов непосредственно на длинных видео без необходимости в чрезмерных ресурсах для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов, необходимых для кодирования длинных видеофрагментов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128x128 в 1280 токенов, тогда как базовые модели требуют 6144 или 8192 токенов для достижения аналогичного качества восстановления. Мы также показываем, что такая эффективная токенизация видео позволяет проводить обучение диффузионного трансформера, который может генерировать 128 кадров одновременно, экономя память.

Терпение - ключ к рассуждениям больших языковых моделей

Недавние достижения в области крупных языковых моделей, особенно с использованием метода цепочки мыслей (CoT), продемонстрировали значительное улучшение в решении сложных задач. Однако существующие модели либо склонны жертвовать детализированным рассуждением ради краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для освоения сложных способностей к рассуждению, что ограничивает их потенциал в решении комплексных задач. Чтобы преодолеть этот разрыв, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, который поощряет модели к более терпеливому стилю рассуждений без необходимости введения новых знаний или навыков. Для реализации подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений в качестве положительных примеров и простые ответы — как отрицательные примеры, тем самым обучая модель отдавать предпочтение тщательности в своих ответах. Наши результаты показывают увеличение производительности до 6.7% на GSM8k при обучении только на легковесном наборе данных.

Развитие моделей открытого рассуждения: Взгляд на Marco-o1

В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждения (LRM). Используя этот импульс, Marco-o1 не только сосредотачивается на дисциплинах с стандартными ответами, таких как математика, физика и программирование — которые хорошо подходят для обучения с подкреплением (RL) — но также уделяет больше внимания решениям открытого типа. Мы ставим перед собой задачу ответить на вопрос: "Может ли модель o1 эффективно обобщаться на более широкие области, где отсутствуют четкие стандарты и награды трудно количественно оценить?" Marco-o1 работает на основе тонкой настройки цепочки рассуждений (CoT), поиска по методу Монте-Карло (MCTS), механизмов рефлексии и инновационных стратегий рассуждений — все это оптимизировано для решения сложных задач в реальном мире.

Введение в VBench++: Многофункциональный бенчмарк для оценки видео-генеративных моделей

Генерация видео переживает значительные улучшения, однако оценка этих моделей остается сложной задачей. Комплексная система оценки для генерации видео необходима по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна давать информацию для будущих разработок в области генерации видео. С этой целью мы представляем VBench, комплексный набор тестов, который разделяет "качество генерации видео" на конкретные, иерархические и раздельные измерения, каждое из которых имеет свои специализированные запросы и методы оценки. VBench обладает несколькими привлекательными свойствами: 1) **Комплексные измерения:** VBench включает 16 измерений генерации видео (например, несоответствие идентичности субъекта, плавность движения, временное мерцание и пространственные отношения и т.д.). Метрики оценки с детализированными уровнями выявляют сильные и слабые стороны отдельных моделей. 2) **Соответствие человеческому восприятию:** Мы также предоставляем набор данных с аннотациями предпочтений человека, чтобы подтвердить соответствие наших тестов человеческому восприятию для каждого измерения оценки. 3) **Ценные выводы:** Мы анализируем способности текущих моделей по различным измерениям оценки и различным типам контента. Также мы исследуем разрыв между моделями генерации видео и изображений. 4) **Универсальная система тестирования:** VBench++ поддерживает оценку как текст-в-видео, так и изображение-в-видео. Мы вводим высококачественный набор изображений с адаптивным соотношением сторон для обеспечения справедливой оценки в различных условиях генерации изображений в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более целостный взгляд на производительность моделей. 5) **Полное открытое исходное кодирование:** Мы полностью открыли исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинг, чтобы способствовать развитию области генерации видео.

Символическая Оптимизация Предпочтений с Демонстрациями (SymDPO): Усиление Контекстно-Ориентированного Обучения Мультимодальных Моделей

По мере того как языковые модели продолжают масштабироваться, крупные языковые модели (LLM) демонстрируют развивающиеся возможности в области обучения в контексте (ICL), что позволяет им решать языковые задачи, предваряя несколько демонстраций в контексте (ICDs) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки крупных мультимодальных моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с серьезной проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это свидетельствует о том, что LMM не достигают эффективного согласования между мультимодальными демонстрациями и выходными данными модели. Для решения этой проблемы мы предлагаем Оптимизацию прямого предпочтения демонстрации символами (SymDPO). Конкретно, SymDPO стремится нарушить традиционный подход к созданию мультимодальных демонстраций, заменяя текстовые ответы в примерах на случайные символы. Это заставляет модель внимательно анализировать изображения в демонстрациях и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы проверяем эффективность этого метода на нескольких тестовых наборах, демонстрируя, что с помощью SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать эти знания для лучшего ответа на вопросы.

Оценка производительности токенизаторов крупных языковых моделей на официальных языках Индии

Большие языковые модели (LLMs), основанные на архитектуре трансформеров, произвели революцию во множестве областей, где токенизация играет ключевую роль на этапах предварительной обработки и тонкой настройки. В многоязычных моделях, особенно в тех, что адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлена всесторонняя оценка токенизаторов, используемых в 12 LLM во всех 22 официальных языках Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько специфичных для индийских языков моделей, показывая наилучшие результаты в 14 языках. Значимые выводы включают превосходную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков и ограниченную производительность проекта Indus в некоторых языках. Это исследование подчеркивает важность разработки целенаправленных стратегий токенизации для многоязычных и индийских моделей, закладывая основу для будущих улучшений в дизайне токенизаторов для повышения языкового охвата и эффективности модели.

Построение доверия: основы безопасности, безопасности и прозрачности в ИИ

В данной статье рассматривается быстро развивающаяся экосистема публично доступных моделей искусственного интеллекта и их потенциальное влияние на ландшафт безопасности и безопасности. По мере того как модели ИИ становятся всё более распространёнными, понимание их потенциальных рисков и уязвимостей становится критически важным. Мы анализируем текущие сценарии безопасности и безопасности, выделяя такие проблемы, как отслеживание проблем, исправление, и очевидное отсутствие процессов жизненного цикла и владения моделями ИИ. Предлагаются комплексные стратегии для повышения безопасности и безопасности как для разработчиков моделей, так и для конечных пользователей. Цель этой статьи - предоставить некоторые основополагающие элементы для более стандартизированной безопасности, безопасности и прозрачности в разработке и эксплуатации моделей ИИ, а также в формировании более широких открытых экосистем и сообществ вокруг них.

Поиск, проверка и обратная связь: К следующему поколению пост-тренировочного парадигма фундаментальных моделей через инженерию верификаторов

Эволюция машинного обучения все чаще акцентируется на разработке мощных моделей и более масштабируемых сигналов надзора. Однако, появление фундаментальных моделей вызывает значительные трудности в предоставлении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. В результате, возникает срочная необходимость исследовать новые сигналы надзора и технические подходы. В данной статье мы предлагаем концепцию инженерии верификаторов — новый парадигм постобучения, специально разработанный для эпохи фундаментальных моделей. Основой инженерии верификаторов является использование набора автоматизированных верификаторов для выполнения задач проверки и предоставления значимой обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификаторов на три ключевых этапа: поиск, проверка и обратная связь, а также предоставляем всесторонний обзор последних научных достижений на каждом из этих этапов. Мы считаем, что инженерия верификаторов представляет собой фундаментальный путь к достижению искусственного общего интеллекта.

Сильные модели не всегда лучшие учителя для настройки на инструкции

**Настройка инструкций широко используется для того, чтобы обеспечить эффективное выполнение инструкций пользователей большими языковыми моделями (LLM). Способности LLM к следованию инструкциям в значительной степени зависят от используемых для настройки наборов данных инструкций. Недавно появились синтетические наборы данных инструкций, которые представляют собой экономически выгодное решение для предоставления LLM разнообразных и качественных инструкций. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более эффективными учителями для настройки инструкций, и поэтому просто используют эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты с пятью базовыми моделями и двадцатью генераторами ответов показали, что более крупные и мощные модели не всегда являются лучшими учителями для более мелких моделей. Мы называем это явление парадоксом больших моделей. Мы наблюдаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и настраиваемыми базовыми моделями. Поэтому мы разработали новую метрику под названием Компенсируемое Совместимостью Вознаграждение (CAR), чтобы измерить эффективность генераторов ответов. Наши эксперименты с пятью базовыми моделями показывают, что CAR превосходит почти все базовые методы.**

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

M3S,CI,QA: Оценка способностей фундаментальных моделей в научной литературе

Существующие эталонные тесты для оценки базовых моделей в основном сосредоточены на задачах, связанных с обработкой одного документа и исключительно текстовыми данными. Однако они часто не в полной мере отражают сложность научных рабочих процессов, которые обычно включают интерпретацию не-текстовых данных и сбор информации из нескольких документов. Чтобы устранить этот пробел, мы представляем M3SciQA - многосферный, мульти-документный научный бенчмарк для ответов на вопросы, разработанный для более всесторонней оценки базовых моделей. M3SciQA состоит из 1452 вопросов, аннотированных экспертами, охватывающих 70 кластеров статей по обработке естественного языка, где каждый кластер представляет собой основную статью вместе со всеми документами, на которые она ссылается, отражая процесс понимания одной статьи через требование использования многосферных и мульти-документных данных. С помощью M3SciQA мы проводим всестороннюю оценку 18 базовых моделей. Наши результаты показывают, что текущие базовые модели значительно уступают человеческим экспертам в извлечении многосферной информации и в рассуждениях на основе нескольких научных документов. Кроме того, мы рассматриваем последствия этих результатов для будущего развития применения базовых моделей в анализе многосферной научной литературы.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Модели генерации видео революционизируют создание контента, при этом модели преобразования изображений в видео привлекают всё больше внимания благодаря их улучшенной управляемости, визуальной согласованности и практическим применениям. Однако, несмотря на их популярность, эти модели зависят от текстов и изображений, предоставляемых пользователями, и в настоящее время нет специализированного набора данных для изучения этих запросов. В этой статье мы представляем TIP-I2V, первый крупномасштабный набор данных, содержащий более 1.70 миллиона уникальных текстов и изображений, предоставленных пользователями, специально для генерации видео из изображений. Кроме того, мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей преобразования изображений в видео. Мы начинаем с описания трудоемкого и дорогостоящего процесса создания этого крупномасштабного набора данных. Затем мы сравниваем TIP-I2V с двумя популярными наборами данных запросов, VidProM (текст в видео) и DiffusionDB (текст в изображение), подчеркивая различия как в базовой, так и в семантической информации. Этот набор данных способствует продвижению исследований в области преобразования изображений в видео. Например, для разработки более эффективных моделей исследователи могут использовать запросы из TIP-I2V для анализа предпочтений пользователей и оценки многомерной производительности своих обученных моделей; для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями преобразования изображений в видео. Новые исследования, вдохновленные TIP-I2V, и различия с существующими наборами данных подчеркивают важность специализированного набора данных запросов для преобразования изображений в видео. Проект доступен для общественности по адресу https://tip-i2v.github.io.

Обзор исследования AndroidLab: Обучение и систематическая оценка автономных агентов для Android

Автономные агенты становятся всё более важными для взаимодействия с реальным миром. В частности, агенты на базе Android недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android страдают от недостатка систематического подхода как к открытым, так и к закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя операционную среду с различными модальностями, пространством действий и воспроизводимую эталонную оценку. AndroidLab поддерживает как большие языковые модели (LLMs), так и мультимодальные модели (LMMs) в одном пространстве действий. Этот бенчмарк включает предопределенные виртуальные устройства Android и 138 задач на девяти приложениях, разработанных для этих устройств. Используя среду AndroidLab, мы разработали набор инструкций для Android и обучили шесть открытых LLMs и LMMs, повысив средние показатели успешности с 4.59% до 21.50% для LLMs и с 1.93% до 13.28% для LMMs. AndroidLab открыт и доступен по адресу https://github.com/THUDM/Android-Lab.

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.

BitStack: Эффективное управление памятью для сжатия больших языковых моделей

Крупные языковые модели (LLMs) произвели революцию во многих приложениях, однако их внедрение до сих пор сталкивается с ограничениями памяти на локальных устройствах. Хотя законы масштабирования улучшили возможности LLM, основное узкое место сместилось от возможностей к доступности, подчеркивая необходимость эффективного управления памятью. Традиционные методы сжатия, такие как квантование, часто требуют заранее определенных соотношений сжатия и отдельных процессов сжатия для каждого настройки, что усложняет развертывание в условиях переменной памяти. В данной статье мы представляем BitStack, новый подход к сжатию весов без обучения, который позволяет осуществлять компромиссы на уровне мегабайт между использованием памяти и производительностью модели. Используя декомпозицию весов, BitStack может динамически настраивать размер модели с минимальной передачей данных между оперативной памятью и устройствами хранения. Наш подход итеративно разлагает матрицы весов с учетом значимости каждого параметра, в результате чего получается приблизительно 1-битовый остаточный блок на параметр в каждой итерации декомпозиции. Эти блоки сортируются и складываются в хранилище как базовые единицы передачи, при этом разное их количество загружается в зависимости от текущей доступности памяти. Многочисленные эксперименты по широкому спектру задач показывают, что, несмотря на предоставление детального контроля над размером, BitStack последовательно соответствует или превосходит сильные базовые показатели квантования, особенно при экстремальных коэффициентах сжатия. Насколько нам известно, это первый метод на основе декомпозиции, который эффективно сокращает разрыв между практическими техниками сжатия, такими как квантование. Код доступен по адресу: https://github.com/xinghaow99/BitStack.

Повышение способности генерации длинных текстов с помощью LLM

Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили их способность обрабатывать длинные контексты, однако все еще существует заметный пробел в генерации длинных, согласованных выходных данных. Это ограничение проистекает из разрыва в обучении, где на этапе предварительного обучения отсутствуют эффективные инструкции для генерации длинных текстов, а данные после обучения в основном состоят из коротких пар запрос-ответ. Современные подходы, такие как обратный перевод инструкций и имитация поведения, сталкиваются с проблемами, включая качество данных, проблемы с авторскими правами и ограничения на использование проприетарных моделей. В данной статье мы представляем инновационную итерационную платформу обучения под названием Self-Lengthen, которая использует только внутренние знания и навыки LLM, не требуя дополнительных данных или проприетарных моделей. Платформа включает две роли: Генератор и Расширитель. Генератор создает первоначальный ответ, который затем разделяется и расширяется Расширителем. Этот процесс приводит к созданию нового, более длинного ответа, который используется для итерационного обучения как Генератора, так и Расширителя. В результате этого процесса модели постепенно обучаются обрабатывать все более длинные ответы. Эксперименты на эталонных тестах и оценки экспертов показывают, что Self-Lengthen превосходит существующие методы в генерации длинных текстов, когда применяется к ведущим открытым LLM, таким как Qwen2 и LLaMA3. Наш код доступен для общественности по адресу https://github.com/QwenLM/Self-Lengthen.

GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

Потребность в крупных текстовых корпусах возросла с появлением предобученных языковых моделей и, в частности, с открытием законов масштабирования для этих моделей. Большинство доступных корпусов содержат достаточное количество данных только для языков с большими доминирующими сообществами. Однако, нет корпуса, который бы (i) охватывал широкий спектр языков меньшинств; (ii) создавался с использованием открытого и воспроизводимого конвейера; и (iii) был тщательно очищен от шума, что делает его надёжным для использования. Мы представляем GlotCC, чистый, документный, общедоменный корпус объемом 2 ТБ, созданный на основе CommonCrawl, который охватывает более 1000 языков. Мы делаем доступными GlotCC и систему, используемую для его создания, включая конвейер, модель идентификации языка и фильтры, для научного сообщества. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.