Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Обучение с шумом и обрезка токенов в Vision Transformers

В настоящей работе мы представляем обрезку токенов шумовой тренировки (TNT) для визуальных трансформеров. Наш метод ослабляет условие дискретного отбора токенов к непрерывному аддитивному шуму, обеспечивая плавную оптимизацию в процессе обучения, при этом сохраняя вычислительные преимущества дискретного отбора в ситуациях развертывания. Мы предоставляем теоретические связи с литературой по скорости и искажению, а также эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами обрезки.

Превышение примеров: Высокоуровневая автоматизированная парадигма рассуждений в контексте обучения с использованием MCTS

Обучение в контексте (ICL) позволяет крупным языковым моделям (LLMs) справляться с последующими задачами с помощью сложного запроса и качественных демонстраций. Однако эта традиционная парадигма ICL демонстрирует ограничения при выполнении сложных математических задач, что в основном связано с ее сильной зависимостью от качества примеров и необходимостью вмешательства человека в сложных сценариях. Для решения этих ограничений в данной статье представлена HiAR-ICL, парадигма высокого уровня автоматизированного вывода в ICL, которая переносит акцент с конкретных примеров на абстрактные мыслительные паттерны, расширяя традиционное понятие контекста в ICL. HiAR-ICL вводит пять атомарных логических действий в качестве основных компонентов для построения цепочечных структур. Используя алгоритм поиска по дереву Монте-Карло, мы исследуем логические пути и создаем мыслительные карты для дальнейшего руководства выводами. Затем мы разрабатываем структуру когнитивной сложности, которая динамически сопоставляет задачи с соответствующими мыслительными картами. Экспериментальные результаты демонстрируют эффективность HiAR-ICL, достигая передового уровня точности (79,6%) на контрольном наборе MATH с Qwen2.5-7B-Instruct, превосходя GPT-4o (76,6%) и Claude 3.5 (71,1%).

FAM Diffusion: Модели диффузии с модуляцией частоты и внимания для генерации изображений высокого разрешения

Модели диффузии хорошо справляются с генерацией изображений высокого качества. Однако они эффективны только при работе с разрешением, используемым во время обучения. Инференс при масштабированном разрешении приводит к повторяющимся паттернам и структурным искажениям. Переобучение на более высоких разрешениях быстро становится непрактичным. Таким образом, методы, позволяющие существующим моделям диффузии работать на гибких разрешениях во время тестирования, весьма желательны. Предыдущие работы страдали от частых артефактов и часто вносили большие задержки. Мы предлагаем два простых модуля, которые вместе решают эти проблемы. Мы представляем модуль частотной модуляции (FM), который использует преобразование Фурье для улучшения глобальной структурной согласованности, и модуль внимания (AM), который улучшает согласованность локальных текстурных паттернов, проблема, в значительной степени игнорируемая в предыдущих работах. Наш метод, названный Fam диффузия, может бесшовно интегрироваться в любую латентную модель диффузии и не требует дополнительного обучения. Обширные качественные результаты подчеркивают эффективность нашего метода в борьбе со структурными и локальными артефактами, в то время как количественные результаты показывают передовые достижения. Кроме того, наш метод избегает избыточных трюков инференса для улучшенной согласованности, таких как основанная на патчах или прогрессивная генерация, что приводит к незначительным задержкам.

Спатиально-временное пропускное руководство для улучшенной диффузии видео

Модели диффузии стали мощным инструментом для генерации высококачественных изображений, видео и 3D-контента. Хотя методы управления выборкой, такие как CFG, улучшают качество, они уменьшают разнообразие и динамику. Автогидание смягчает эти проблемы, но требует дополнительного обучения слабой модели, ограничивая свою практичность для моделей крупного масштаба. В этой работе мы представляем Пространственно-временное Пропускное Управление (STG), простой метод управления выборкой, не требующий обучения, для повышения качества моделей видео-диффузии на основе трансформеров. STG использует неявную слабую модель через самовозмущение, избегая необходимости во внешних моделях или дополнительном обучении. Выбирая пропуски пространственно-временных слоев, STG создает выровненную, деградированную версию оригинальной модели, чтобы повысить качество выборки без ущерба для разнообразия или динамического уровня. Наши вкладения включают: (1) представление STG как эффективной высокопроизводительной техники управления для моделей видео-диффузии, (2) устранение необходимости в вспомогательных моделях путем имитации слабой модели через пропуск слоев и (3) обеспечение улучшенного качества управления без ущерба для разнообразия выборки или динамики, в отличие от CFG. Для дополнительных результатов посетите https://junhahyung.github.io/STGuidance.

S,POT,L,IGHT: Управляемое перерисовывание объектов с использованием теней

Недавние исследования показали, что модели диффузии могут быть использованы в качестве мощных нейронных рендеринговых движков, которые могут быть использованы для вставки виртуальных объектов в изображения. Однако, в отличие от типичных физических рендеров, нейронные рендеринговые движки ограничены отсутствием ручного контроля над настройками освещения, что часто является важным для улучшения или персонализации желаемого результата изображения. В этой статье мы показываем, что точный контроль освещения можно достичь для переосвещения объекта, просто указав желаемые тени объекта. Удивительным образом мы показываем, что внедрение только тени объекта в предобученный основанный на диффузии нейронный рендерер позволяет ему точно создавать тени объекта в соответствии с желаемой позицией света, при этом правильно гармонизируя объект (и его тень) в целевом фоновом изображении. Наш метод, SpotLight, использует существующие подходы к нейронному рендерингу и достигает управляемых результатов переосвещения без дополнительного обучения. В частности, мы демонстрируем его использование с двумя нейронными рендерерами из недавней литературы. Мы показываем, что SpotLight достигает превосходных результатов композитинга объектов, как количественно, так и перцептивно, что подтверждено исследованием пользователей, превосходя существующие модели на основе диффузии, специально разработанные для переосвещения.

AC3D: Анализ и улучшение 3D-контроля камеры в видеодиффузионных трансформерах

Недавние многочисленные работы интегрировали управление 3D-камерами в основные модели текст-в-видео, но результатом управления камерами часто оказывается неточность, что ухудшает качество генерации видео. В этой работе мы анализируем движение камеры с точки зрения первых принципов, открывая инсайды, которые позволяют точно манипулировать 3D-камерой, не компрометируя качество синтеза. Во-первых, мы определяем, что движение, вызванное движениями камеры в видео, имеет низкочастотную природу. Это побудило нас скорректировать расписания подготовки и тестирования позы, ускорив сходимость обучения при улучшении визуального и динамического качества. Затем, исследуя представления условного видео-диффузионного трансформера, мы наблюдаем, что они неявно выполняют оценку позы камеры под капотом, и только подмножество их слоев содержит информацию о камере. Это заставило нас ограничить ввод условий камеры до подмножества архитектуры, чтобы предотвратить вмешательство в другие видеофункции, что привело к снижению параметров обучения в 4 раза, улучшению скорости обучения и повышению визуального качества на 10%. Наконец, мы дополняем типичный набор данных для обучения управления камерой тщательно подобранным набором данных из 20K различных динамических видео с неподвижными камерами. Это помогает модели разграничить разницу между движением камеры и сценой и улучшает динамику генерируемых видео с учетом позы. Мы обобщаем эти находки для проектирования архитектуры Advanced 3D Camera Control (AC3D) — новой моделью на переднем крае для генеративного моделирования видео с управлением камерой.

MATATA: Математическое инструментальное обоснование для табличных приложений

Способности к математическому рассуждению увеличиваются с инструментально расширенными языковыми агентами, но методы часто основываются либо на закрытых источниках, либо на больших моделях, внешних данных или обширной инженерии подсказок. Эта работа представляет MATATA, новый рентабельный метод обучения агентов LLM для задач с табличными данными через рассуждение, планирование и использование инструментов. С помощью прогрессивной парадигмы самоулучшения и итеративного слабого надзора она расширяет возможности малых языковых моделей (SLMs) на 3.8B/8B, особенно подходящих для локального хостинга и чувствительных бизнес-контекстов, где конфиденциальность данных имеет решающее значение. Используя гибкие и многоразовые инструменты на различных наборах данных, она достигает надежных результатов с эффективной масштабируемостью в рамках совместных задач. Эксперименты показывают, что MATATA достигает передовых показателей на FinQA и TAT-QA среди фреймворков рассуждений на основе моделей с открытым исходным кодом. Более того, модели MATATA конкурируют с фреймворками на основе GPT-4 на TabMWP, оставаясь малым языковым моделям.

TeaCache: Ускорение Моделей Диффузии Видео

Как фундаментальная основа для генерации видео, модели диффузии сталкиваются с проблемой низкой скорости вывода из-за последовательного характера денойзинга. Предыдущие методы ускоряют модели, кэшируя и повторно используя выходные данные модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходными данными модели неравномерны на временных шагах, что затрудняет выбор соответствующих выходных данных модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В этом исследовании мы представляем Кэш, учитывающий встроения временных шагов (TeaCache), свободный от обучения подход кэширования, который оценивает и использует колеблющиеся различия между выходными данными модели на временных шагах. Вместо того чтобы напрямую использовать временные выходные данные модели, TeaCache сосредотачивается на входных данных модели, которые имеют сильную корреляцию с выходными данными модели, не имея при этом значительных вычислительных затрат. Сначала TeaCache модулирует шумные входные данные, используя встраивания временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходных данных модели. Затем TeaCache вводит стратегию переоценки для уточнения оцененных различий и использует их для указания кэширования выходных данных. Эксперименты показывают, что TeaCache достигает до 4,41x ускорения по сравнению с Open-Sora-Plan при незначительном (-0,07% Vbench score) ухудшении качества изображения.

Оптимизация больших языковых моделей с помощью Puzzle: новый подход к ускорению вывода

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, но их внедрение ограничивается высокими вычислительными затратами во время вывода. Хотя увеличение числа параметров повышает точность, это также увеличивает разрыв между современными возможностями и практической применимостью. Мы представляем Puzzle, фреймворк для ускорения вывода LLM на конкретном оборудовании, сохраняя их возможности. Посредством инновационного применения поиска нейронной архитектуры (NAS) в беспрецедентном масштабе, Puzzle систематически оптимизирует модели с десятками миллиардов параметров в условиях аппаратных ограничений. Наш подход использует блоковую локальную дистилляцию знаний (BLD) для параллельного изучения архитектуры и применяет смешанное целочисленное программирование для точной оптимизации ограничений. Мы демонстрируем влияние нашего фреймворка в реальных условиях через Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), общедоступную модель, производную от Llama-3.1-70B-Instruct. Nemotron-51B достигает 2,17-кратного ускорения пропускной способности вывода, помещаясь на один графический процессор NVIDIA H100, сохраняя при этом 98,4% возможностей оригинальной модели. Nemotron-51B в настоящее время является самой точной языковой моделью, способной на вывод с использованием одного GPU при больших размерах пакетa. Удивительно, что для этой трансформации потребовалось всего 45 миллиардов токенов для обучения, в то время как для модели 70B использовалось более 15 триллионов токенов. Это устанавливает новую парадигму, в которой мощные модели могут быть оптимизированы для эффективного развертывания с лишь незначительным компромиссом в их возможностях, демонстрируя, что производительность вывода, а не только количество параметров, должна определять выбор модели. С выпуском Nemotron-51B и представлением фреймворка Puzzle мы предоставляем практикам немедленный доступ к современным возможностям языкового моделирования при значительно сниженными вычислительными затратами.

RollingDepth: Инновационный Подход к Оценке Глубины из Видеопотока

Оценка глубины видео поднимает одноименные видеоклипы в 3D, выводя плотную глубину для каждого кадра. Недавние достижения в оценке глубины по одному изображению, произошедшие благодаря росту крупных оснований моделей и использованию синтетических тренировочных данных, вызвали renewed интерес к оценке глубины видео. Однако наивное применение оценщика глубины для одного изображения к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может дать сбои, когда движение камеры вызывает резкие изменения в диапазоне глубины. Очевидным и принципиальным решением было бы построить основываясь на видеоосновных моделях, но они имеют свои ограничения, включая дорогую тренировку и вывод, несовершенную 3D согласованность и процедуры сшивания для фиксированной длины (коротких) выходов. Мы делаем шаг назад и демонстрируем, как превратить одноименную латентную диффузионную модель (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) многокадровый оценщик глубины, который получается из одноименной LDM и отображает очень короткие видеотроски (обычно тройки кадров) в глубинные отрывки. (ii) надежный, основанный на оптимизации алгоритм регистрации, который оптимально собирает глубинные отрывки, взятые с различных частот кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные глубинные видео, чем специализированные оценщики глубины видео и высокопроизводительные модели с одним кадром. Страница проекта: rollingdepth.github.io.

GRAPE: Обобщение политики робота через выравнивание предпочтений

Несмотря на недавние достижения моделей взаимодействия «лицом к лицу» (VLA) в различных задачах робототехники, они страдают от критических проблем, таких как плохая обобщаемость к невиданным задачам из-за их зависимости от клонирования поведения исключительно на основе успешных тренингов. Более того, они обычно настраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит искажения распределения и ограничивает их адаптируемость к различным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Чтобы преодолеть эту пропасть, мы представляем GRAPE: Обобщение политики робота через согласование предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как от успешных, так и неудачных испытаний для повышения обобщаемости к разнообразным задачам. Кроме того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через индивидуальные пространственно-временные ограничения с контрольными точками, предложенными большой моделью «лицом к лицу». Примечательно, что эти ограничения гибкие и могут быть настроены для согласования модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE в различных задачах как в реальном, так и в смоделированном окружении. Экспериментальные результаты показывают, что GRAPE повышает производительность современных VLA моделей, увеличивая коэффициенты успеха для задач манипуляции на их области применения и невиданных задач на 51,79% и 60,36% соответственно. Кроме того, GRAPE может быть согласована с различными целями, такими как безопасность и эффективность, снижая частоту столкновений на 44,31% и длину шага раската на 11,15% соответственно. Весь код, модели и данные доступны по адресу https://grape-vla.github.io/.

Траектория внимания для детального управления движением в видео

Недавние достижения в генерации видео были существенно обусловлены моделями видео-диффузии, при этом контроль движения камеры стал критической задачей при создании визуального контента, адаптированного к просмотру. В этой статье представлено внимание к траектории, новый подход, который выполняет внимание вдоль доступных пиксельных траекторий для тонкой настройки контроля движения камеры. В отличие от существующих методов, которые часто дают неточные результаты или игнорируют временные корреляции, наш подход обладает более сильным индуктивным уклоном, который бесшовно внедряет информацию о траекториях в процесс генерации видео. Важно, что наш подход моделирует внимание к траектории как вспомогательную ветвь наряду с традиционным временным вниманием. Этот дизайн позволяет оригинальному временно́му вниманию и вниманию к траектории работать в синергии, обеспечивая как точный контроль движения, так и возможность генерации нового контента, что критично, когда траектория доступна только частично. Эксперименты по контролю движения камеры для изображений и видео демонстрируют значительные улучшения в точности и долгосрочной согласованности, сохраняя при этом высокое качество генерации. Более того, мы показываем, что наш подход можно расширить на другие задачи контроля движения видео, такие как редактирование видео с гидом по первому кадру, где он превосходно справляется с поддержанием согласованности контента на больших пространственных и временных интервалах.

Video-Ma2mba: Эффективное понимание длинных видео с использованием многоосного градиентного контрольного пункта

С учетом растущего масштаба и сложности видеоданных, эффективная обработка длинных видеосеквенций представляет собой значительные проблемы из-за квадратичного увеличения требований к памяти и вычислительным ресурсам, связанных с существующими основанными на трансформерах крупными многомодальными моделями (LMMs). Чтобы решить эти проблемы, мы представляем Video-Ma^2mba, новую архитектуру, которая включает модели состояния (SSMs) в рамках Mamba-2, заменяя механизмы внимания. Это позволяет LMMs масштабироваться линейно с точки зрения временных и памятьных требований, что делает возможным обработку видеоконтента длительного времени. Более того, мы повышаем эффективность использования памяти, вводя метод многослойного градиентного чекпоинтинга (MA-GC), который стратегически управляет памятью, сохраняя только важные активации по нескольким вычислительным осям. Наш подход значительно уменьшает объем используемой памяти по сравнению со стандартным градиентным чекпоинтингом. Эмпирические анализы показывают, что Video-Ma^2mba может обрабатывать обширные видеосеквенции, эквивалентные миллионам токенов или более двух часов непрерывных последовательностей при 1 FPS, на одном GPU. Поддерживая детальную фиксацию временной динамики, наша модель улучшает точность и актуальность ответов в задачах понимания длинного видео, демонстрируя существенные преимущества по сравнению с существующими фреймворками.

DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Движение человека, по своей сути, является непрерывным и динамичным, что представляет собой значительные проблемы для генеративных моделей. Несмотря на их преобладание, дискретные методы квантования, такие как VQ-VAEs, страдают от врожденных ограничений, включая ограниченную выразительность и артефакты шума на уровне кадров. Непрерывные подходы, хотя и создают более плавные и естественные движения, часто терпят неудачи из-за высокой размерности и ограниченных обучающих данных. Чтобы решить этот "несоответствие" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные токены для непрерывного движения через декодирование исправленного потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает тонкие динамики и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основной архитектурой, наш метод повышает естественность, не жертвуя верностью к условным сигналам. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты укрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по адресу: https://whwjdqls.github.io/discord.github.io/.

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

Масштабирование трансформеров для кодирования речи с низким битрейтом и высоким качеством

Токенизация речи с помощью нейронных аудиокодеков является важной частью современных AI-пipelines для генерации или понимания речи, как отдельно, так и в мультимодальном контексте. Традиционно такие модели токенизации сосредоточивались на архитектурах с низким количеством параметров, используя только компоненты с сильными индуктивными предвзятостями. В данной работе мы показываем, что, увеличивая архитектуру трансформера с большим количеством параметров для решения этой задачи и применяя гибкое ограничение на конечную скалярную квантизацию (FSQ), можно достичь качества речи на уровне передовых технологий при крайне низких битовых скоростях 400 или 700 бит в секунду. Обученные модели значительно превосходят существующие базовые линии как в объективных, так и в субъективных тестах.

Обратное мышление делает LLM более сильными рассуждателями

Обратное мышление играет ключевую роль в человеческом рассуждении. Люди могут рассуждать не только от проблемы к решению, но и наоборот, т.е. начинать с решения и рассуждать о проблеме. Это часто улучшает общую производительность рассуждений, поскольку позволяет проводить проверки согласованности между их прямым и обратным мышлением. Для того чтобы дать возможность крупным языковым моделям (LLMs) выполнять обратное мышление, мы вводим Обратное Улучшенное Мышление (RevThink), рамки, состоящие из увеличения данных и целей обучения. В RevThink мы увеличиваем набор данных, собирая структурированные прямые и обратные рассуждения от модели учителя, состоящей из: (1) оригинального вопроса, (2) прямого рассуждения, (3) обратного вопроса и (4) обратного рассуждения. Затем мы применяем три цели для обучения меньшей модели-ученика в формате многозадачного обучения: (a) генерировать прямое рассуждение из вопроса, (b) генерировать обратный вопрос из вопроса и (c) генерировать обратное рассуждение из обратного вопроса. Эксперименты по 12 наборам данных, охватывающим обыденные, математические и логические рассуждения, показывают среднее улучшение на 13,53% по сравнению с нулевым уровнем производительности модели-ученика и улучшение на 6,84% по сравнению с сильнейшими базовыми линиями дистилляции знаний. Более того, наш метод демонстрирует эффективность по образцам — используя только 10% правильного прямого рассуждения из обучающих данных, он превосходит стандартный метод дообучения, обученный на в 10 раз большем объеме прямого рассуждения. RevThink также демонстрирует сильную генерацию на данных, находящихся вне распределения, которые были отложены.

Декуплированная оптимизация моментов: Новая парадигма для обучения крупных нейронных сетей

Обучение крупных нейронных сетей обычно требует обмена градиентами между акселераторами через специализированные высокоскоростные соединения. Опираясь на принципы обработки сигналов, такие как частотное разложение и сжатие энергии, мы демонстрируем, что синхронизация полных состояний оптимизатора и параметров модели в процессе обучения не является необходимой. Разделяя обновления момента и позволяя контролируемое расхождение в состояниях оптимизатора между акселераторами, мы достигаем улучшенной сходимости по сравнению с современными оптимизаторами. Мы представляем {De}coupled {Mo}mentum (DeMo), объединенный оптимизатор и алгоритм параллельной обработки данных, который снижает требования к межакселераторной связи на несколько порядков. Это позволяет обучать крупные нейронные сети даже при ограниченной пропускной способности сети и неоднородном оборудовании. Наш метод не зависит от топологии и архитектуры и поддерживает масштабируемое распределенное обучение с синхронизацией тактовых импульсов при незначительных затратах вычислительных ресурсов и памяти. Эмпирические результаты показывают, что модели, обученные с помощью DeMo, соответствуют или превосходят производительность эквивалентных моделей, обученных с помощью AdamW, устраняя необходимость в высокоскоростных соединениях при предварительном обучении крупномасштабных фундаментальных моделей. Открытая реализация на базе PyTorch опубликована на GitHub по адресу https://github.com/bloc97/DeMo.

Адаптация многомодальных больших языковых моделей к специфическим доменам: постобучение, синтез данных и оценка задач

В последние годы наблюдается стремительное развитие общих мультимодальных больших языковых моделей (MLLMs). Однако адаптация общих MLLM к конкретным областям, таким как научные дисциплины и промышленные приложения, остается менее исследованной. Эта статья систематически изучает адаптацию MLLM к конкретным областям через постобучение, сосредоточившись на синтезе данных, цепочках обучения и оценке задач. (1) Синтез данных: Используя модели с открытым исходным кодом, мы разрабатываем синтезатор визуальных инструкций, который эффективно генерирует разнообразные задачи визуальных инструкций из пар изображение-описание, специфичных для области. Наши синтетические задачи превосходят те, которые генерируются с помощью ручных правил, GPT-4 и GPT-4V, в улучшении производительности MLLM, специфичной для области. (2) Цепочка обучения: Хотя двухступенчатое обучение — начальное на парах изображений и описаний, за которым следует обучение на задачах визуальных инструкций — обычно применяется для разработки общих MLLM, мы применяем одноступенчатую цепочку обучения для увеличения разнообразия задач для постобучения в конкретной области. (3) Оценка задач: Мы проводим эксперименты в двух областях — биомедицине и пище, постобучая MLLM разных источников и масштабов (например, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) и затем оцениваем производительность MLLM по различным задачам, специфичным для области. Чтобы поддержать дальнейшие исследования в области адаптации MLLM, мы откроем свои реализации с открытым исходным кодом.

AlphaTablets: Новая генерация представления 3D-плоскостей для реконструкции из монокулярных видео

Мы представляем AlphaTablets, новаторское и общее представление 3D-плоскостей, которое характеризуется непрерывной 3D-поверхностью и точным delineation границ. Представляя 3D-плоскости в виде прямоугольников с альфа-каналами, AlphaTablets объединяют преимущества современных 2D и 3D представлений плоскостей, обеспечивая точное, последовательное и гибкое моделирование 3D-плоскостей. Мы выводим дифференцируемую растеризацию на основе AlphaTablets, чтобы эффективно отображать 3D-плоскости в изображения, и предлагаем новую схему снизу-вверх для 3D-планарной реконструкции из одноокулярных видео. Начав с 2D суперпикселей и геометрических подсказок от предварительно обученных моделей, мы инициализируем 3D-плоскости как AlphaTablets и оптимизируем их с помощью дифференцируемой рендеринга. Вводится эффективная схема слияния для облегчения роста и уточнения AlphaTablets. Через итеративную оптимизацию и слияние мы восстанавливаем полные и точные 3D-плоскости с твердыми поверхностями и четкими границами. Обширные эксперименты на наборе данных ScanNet демонстрируют наилучшие характеристики в 3D-планарной реконструкции, подчеркивая великий потенциал AlphaTablets как общего представления 3D-плоскости для различных приложений. Страница проекта доступна по адресу: https://hyzcluster.github.io/alphatablets

Yi-Lightning: Новый Флагманский Модель Языка

Этот технический отчет представляет Yi-Lightning, нашу последнюю флагманскую модель большого языка (LLM). Она демонстрирует исключительную производительность, занимая 6-е место в общем зачете на Chatbot Arena, с особенно сильными результатами (2-е по 4-е места) в специализированных категориях, включая китайский, математику, программирование и сложные подсказки. Yi-Lightning использует улучшенную архитектуру Mixture-of-Experts (MoE), которая включает в себя передовую сегментацию экспертов и механизмы маршрутизации в сочетании с оптимизированными методами кэширования KV. Наш процесс разработки охватывает комплексное предварительное обучение, контрольное дообучение (SFT) и обучение с подкреплением на основе обратной связи от людей (RLHF), где мы разрабатываем целенаправленные стратегии для многоэтапного обучения, синтетического создания данных и моделирования наград. Более того, мы реализуем RAISE (Responsible AI Safety Engine), четырехкомпонентную структуру для решения проблем безопасности на этапах предварительного обучения, после обучения и обслуживания. Обладая нашей масштабируемой суперкомпьютерной инфраструктурой, все эти инновации существенно снижают затраты на обучение, развертывание и вывод результатов, при этом поддерживая высокие стандарты производительности. С дальнейшими оценками на общедоступных академических критериях, Yi-Lightning демонстрирует конкурентоспособные результаты по сравнению с топовыми LLM, в то время как мы наблюдаем значительное несоответствие между традиционными, статическими результатами бенчмарков и динамичными человеческими предпочтениями в реальном мире. Это наблюдение побуждает к критической переоценке полезности традиционных бенчмарков в руководстве по разработке более умных и мощных AI-систем для практических приложений. Yi-Lightning теперь доступен через нашу платформу разработчика на https://platform.lingyiwanwu.com.