Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.

Комплексная и практическая оценка систем RAG для медицинских вопросов

Генерация с дополнительным извлечением (RAG) выделяется как перспективный метод для улучшения работы больших языковых моделей (LLM) в задачах, требующих глубоких знаний, таких как задачи в медицинской сфере. Однако чувствительная природа медицинской области требует абсолютно точной и надежной системы. Хотя существующие бенчмарки RAG в основном сосредоточены на стандартном сценарии извлечения-ответа, они упускают из виду многие практические ситуации, которые оценивают важные аспекты надежной медицинской системы. В этой статье мы устраняем этот пробел, предоставляя всеобъемлющую оценочную структуру для систем ответов на медицинские вопросы (QA) в условиях RAG для таких ситуаций, включая достаточность, интеграцию и устойчивость. Мы представляем Медицинский Бенчмарк Генерации с Дополнительным Извлечением (MedRGB), который предлагает различные дополнительные элементы для четырех медицинских наборов данных QA для тестирования способности LLM справляться с этими специфическими сценариями. Используя MedRGB, мы проводим обширные оценки как передовых коммерческих LLM, так и моделей с открытым исходным кодом в различных условиях извлечения. Наши экспериментальные результаты показывают ограниченную способность текущих моделей справляться с шумом и дезинформацией в извлеченных документах. Мы также анализируем процессы рассуждения LLM, чтобы предоставить ценные выводы и направления для дальнейшего развития систем RAG в этой критически важной медицинской области.

Адаптивное декодирование с помощью оптимизации латентных предпочтений

Во время декодирования языковых моделей известно, что использование более высокой температуры выборки приводит к более креативным ответам, тогда как более низкие температуры дают более фактически точные результаты. Однако такие модели обычно применяются для общих инструкций, которые включают как креативные, так и фактические задачи, используя единую фиксированную температуру для всех примеров и токенов. В данной работе мы представляем Адаптивное Декодирование, слой, добавленный к модели для динамического выбора температуры выборки во время вывода, на уровне токена или примера, для оптимизации производительности. Для обучения его параметров мы вводим Оптимизацию Латентных Предпочтений (LPO), общий подход к обучению дискретных латентных переменных, таких как выбор температуры. Наш метод превосходит все фиксированные температуры декодирования на ряде задач, требующих различных температур, включая UltraFeedback, Креативное Писательство Историй и GSM8K.

SlimLM: Эффективная Малая Языковая Модель для Документальной Помощи на Мобильных Устройствах

В то время как небольшие языковые модели (SLMs) показывают перспективы для развертывания на мобильных устройствах, их реальная производительность и применение на смартфонах остаются недостаточно изученными. Мы представляем SlimLM, серию SLMs, оптимизированных для задач помощи с документами на мобильных устройствах. Проведя обширные эксперименты на Samsung Galaxy S24, мы определили оптимальный баланс между размером модели (от 125 миллионов до 7 миллиардов параметров), длиной контекста и временем вывода для эффективной обработки на устройстве. SlimLM предварительно обучена на SlimPajama-627B и дообучена на DocAssist, нашем собственном наборе данных для задач по суммаризации, ответам на вопросы и предложениям. Наша наименьшая модель демонстрирует эффективную работу на S24, в то время как более крупные варианты предлагают улучшенные возможности в рамках мобильных ограничений. Мы сравнили SlimLM с существующими SLMs, показав сопоставимую или превосходящую производительность, и предоставили эталон для будущих исследований в области языковых моделей, работающих на устройствах. Мы также предоставляем Android-приложение, дающее практические представления о развертывании SLM. Наши выводы предоставляют ценные инсайты и освещают возможности использования продвинутых языковых моделей на высококлассных смартфонах, что потенциально снижает серверные затраты и улучшает конфиденциальность за счет обработки на устройстве.

Исследование роли "Конституций" для обучения на обратной связи ИИ

Развивающиеся возможности больших языковых моделей (LLM) привели к их использованию в качестве замены человеческой обратной связи для обучения и оценки других LLM. Эти методы часто опираются на «конституции», письменные руководства, которые модель критика использует для предоставления обратной связи и улучшения генераций. Мы исследуем, как выбор конституции влияет на качество обратной связи, используя четыре разные конституции для улучшения пациент-ориентированного общения на медицинских собеседованиях. В парных сравнениях, проведённых 215 оценщиками, мы обнаружили, что подробные конституции приводят к лучшим результатам в отношении эмоциональных качеств. Однако ни одна из конституций не превзошла базовый уровень в обучении более практически ориентированным навыкам, связанным с сбором и предоставлением информации. Наши выводы показывают, что, хотя следует отдавать предпочтение подробным конституциям, существуют возможные ограничения эффективности обратной связи AI как сигнала вознаграждения в определённых областях.

FitDiT: Прорыв в Виртуальной Примерке с Учетом Деталей и Размеров Одежды

Хотя технология виртуальной примерки на основе изображений достигла значительного прогресса, новые подходы все еще сталкиваются с вызовами при создании высококачественных и надежных изображений подгонки в разных сценариях. Эти методы часто испытывают трудности с такими аспектами, как сохранение текстуры и подгонка по размеру, что ограничивает их общую эффективность. Для решения этих проблем мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для высокоточной виртуальной примерки с использованием Diffusion Transformers (DiT), которые выделяют больше параметров и внимания на высокоразрешенные характеристики. Во-первых, для дальнейшего улучшения сохранения текстуры мы вводим экстрактор текстуры одежды, который включает в себя эволюцию приоритетов одежды для тонкой настройки характеристик одежды, что помогает лучше улавливать богатые детали, такие как полоски, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения деталей одежды с высокой частотой. Для решения проблемы подгонки по размеру мы используем стратегию расширенной-расслабленной маски, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю маскированную область при примерке через категории. Оснащенный вышеуказанным дизайном, FitDiT превосходит все базовые модели как по качественным, так и по количественным оценкам. Он превосходно справляется с созданием хорошо сидящей одежды с фотореалистичными и сложными деталями, при этом достигая конкурентоспособных времен вывода 4.57 секунды для одного изображения 1024x768 после оптимизации структуры DiT, превосходя существующие методы.

SmoothCache: Ускорение Инференса для Диффузионных Трансформеров

Диффузионные трансформеры (DiT) зарекомендовали себя как мощные генеративные модели для различных задач, включая синтез изображений, видео и речи. Однако процесс их инференса остается вычислительно затратным из-за многократного использования ресурсоемких модулей внимания и прямого распространения. Чтобы решить эту проблему, мы представляем SmoothCache — метод ускорения инференса, не зависящий от модели, для архитектур DiT. SmoothCache использует наблюдаемое высокое сходство между выходами слоев на смежных временных шагах диффузии. Анализируя ошибки представления слоев на основе небольшого калибровочного набора, SmoothCache адаптивно кэширует и повторно использует ключевые характеристики во время инференса. Наши эксперименты показывают, что SmoothCache достигает ускорения от 8% до 71%, при этом сохраняя или даже улучшая качество генерации в различных модальностях. Мы демонстрируем его эффективность на DiT-XL для генерации изображений, Open-Sora для преобразования текста в видео и Stable Audio Open для преобразования текста в аудио, подчеркивая его потенциал для реализации приложений в реальном времени и расширения доступности мощных моделей DiT.

BlueLM-V-3B: Алгоритм и системный дизайн для мультимодальных крупных языковых моделей на мобильных устройствах

Вот перевод текста на русский язык: --- Появление и растущая популярность мультимодальных крупных языковых моделей (MLLMs) обладают значительным потенциалом для улучшения различных аспектов повседневной жизни, от улучшения коммуникации до облегчения обучения и решения проблем. Мобильные телефоны, как неотъемлемые спутники повседневной жизни, представляют собой самую эффективную и доступную платформу для развертывания MLLMs, обеспечивая их бесшовную интеграцию в повседневные задачи. Однако развертывание MLLMs на мобильных телефонах представляет собой вызовы из-за ограничений в размере памяти и вычислительных возможностях, что затрудняет достижение плавной и реального времени обработки без обширной оптимизации. В данной статье мы представляем BlueLM-V-3B, подход к совместному проектированию алгоритма и системы, специально адаптированный для эффективного развертывания MLLMs на мобильных платформах. В частности, мы перерабатываем схему динамического разрешения, принятую в основных MLLMs, и реализуем системную оптимизацию для развертывания с учетом аппаратных особенностей для оптимизации вывода модели на мобильных телефонах. BlueLM-V-3B выделяется следующими ключевыми особенностями: (1) Малый размер: BlueLM-V-3B включает языковую модель с 2,7 миллиардами параметров и визуальный энкодер с 400 миллионами параметров. (2) Высокая скорость: BlueLM-V-3B достигает скорости генерации 24,4 токена/с на процессоре MediaTek Dimensity 9300 с квантованием весов LLM на 4 бита. (3) Высокая производительность: BlueLM-V-3B достигла наивысшего среднего балла 66,1 на бенчмарке OpenCompass среди моделей с параметрами ≤ 4B и превзошла серию моделей с гораздо большим размером параметров (например, MiniCPM-V-2.6, InternVL2-8B).

Awaker2.5-VL: Стабильное масштабирование MLLM с использованием параметрически эффективной смеси экспертов

По мере того как исследования многомодальных крупных языковых моделей (MLLM) становятся популярными, от усовершенствованной MLLM модели обычно требуется одновременно справляться с различными текстовыми и визуальными задачами (например, VQA, распознавание объектов, OCR и ChartQA) для реальных приложений. Однако из-за значительных различий в представлении и распределении данных среди различных задач, простое смешивание данных всех задач вместе приводит к известной проблеме "конфликта мультизадачности", что влечет за собой ухудшение производительности по всем задачам. Для решения этой проблемы мы предлагаем Awaker2.5-VL, архитектуру "смешение экспертов" (MoE), подходящую для MLLM, которая приобретает многозадачные способности через несколько разреженно активируемых экспертов. Для ускорения обучения и вывода Awaker2.5-VL каждый эксперт в нашей модели разработан как структура низкоранговой адаптации (LoRA). Многочисленные эксперименты на последних бенчмарках демонстрируют эффективность Awaker2.5-VL. Код и веса модели выпущены на нашей странице проекта: https://github.com/MetabrainAGI/Awaker.

AnimateAnything: Создание Консистентных и Контролируемых Анимаций для Генерации Видео

Мы представляем унифицированный подход к управляемой генерации видео под названием **AnimateAnything**, который облегчает точное и последовательное манипулирование видео в различных условиях, включая траектории камеры, текстовые запросы и аннотации движений пользователя. В частности, мы тщательно разрабатываем сеть слияния многомасштабных контрольных характеристик для построения общего представления движения для различных условий. Она явно преобразует всю контрольную информацию в кадр за кадром оптические потоки. Затем мы включаем оптические потоки как априорные знания о движении для руководства финальной генерацией видео. Кроме того, чтобы уменьшить мерцание, вызванное крупномасштабными движениями, мы предлагаем модуль стабилизации на основе частот. Он может улучшить временную когерентность, обеспечивая согласованность частотной области видео. Эксперименты показывают, что наш метод превосходит современные подходы. Для получения дополнительной информации и видео, пожалуйста, обратитесь к веб-странице: https://yu-shaonian.github.io/Animate_Anything/.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.

S,TABLE,V2V: Устойчивость формы при редактировании видео

Недавние достижения в области генеративного ИИ значительно способствовали развитию создания и редактирования контента, где текущие исследования расширяют этот захватывающий прогресс на сферу редактирования видео. В этих исследованиях в основном переносятся присущие шаблоны движения из исходных видео в редактируемые, где часто наблюдаются результаты с неудовлетворительной согласованностью с запросами пользователя из-за отсутствия конкретных соответствий между переданными движениями и редактируемым содержимым. Чтобы решить эту проблему, мы представляем метод редактирования видео с сохранением формы, названный StableV2V, в данной статье. Наш метод разделяет процесс редактирования на несколько последовательных процедур: сначала редактируется первый кадр видео, затем устанавливается соответствие между переданными движениями и запросами пользователя, и, наконец, редактируемое содержимое распространяется на все остальные кадры на основе этого соответствия. Кроме того, мы создали тестовую базу данных, названную DAVIS-Edit, для всесторонней оценки редактирования видео, учитывая различные типы запросов и сложности. Экспериментальные результаты и анализы демонстрируют превосходство нашего метода по сравнению с существующими передовыми исследованиями в плане производительности, визуальной согласованности и эффективности вывода.

LLäMmlein: Создание и Оценка Немецких Языковых Моделей

Мы создали две модели декодера, работающие только на немецком языке, LLäMmlein 120M и 1B, полностью с нуля и опубликовали их вместе с обучающими данными для использования немецким сообществом исследователей NLP. Процесс обучения моделей включал несколько ключевых этапов: обширную предобработку данных, создание специализированного немецкого токенизатора, само обучение, а также оценку итоговых моделей на различных тестах. В ходе обучения сохранялись и анализировались многочисленные контрольные точки с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. В сравнении с передовыми моделями на бенчмарке SuperGLEBer, обе модели LLäMmlein показали конкурентоспособные результаты, регулярно соответствующие или превосходящие модели с аналогичным количеством параметров. Результаты показывают, что качество моделей увеличивается с размером, как и ожидалось, однако улучшения производительности на некоторых задачах достигли плато на ранних этапах, что предоставляет ценные сведения для распределения ресурсов при разработке будущих моделей.

Поиск, проверка и обратная связь: К следующему поколению пост-тренировочного парадигма фундаментальных моделей через инженерию верификаторов

Эволюция машинного обучения все чаще акцентируется на разработке мощных моделей и более масштабируемых сигналов надзора. Однако, появление фундаментальных моделей вызывает значительные трудности в предоставлении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. В результате, возникает срочная необходимость исследовать новые сигналы надзора и технические подходы. В данной статье мы предлагаем концепцию инженерии верификаторов — новый парадигм постобучения, специально разработанный для эпохи фундаментальных моделей. Основой инженерии верификаторов является использование набора автоматизированных верификаторов для выполнения задач проверки и предоставления значимой обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификаторов на три ключевых этапа: поиск, проверка и обратная связь, а также предоставляем всесторонний обзор последних научных достижений на каждом из этих этапов. Мы считаем, что инженерия верификаторов представляет собой фундаментальный путь к достижению искусственного общего интеллекта.

Погружение в документы: Последствия масштабирования вывода переоценщиков

Переранжировщики, обычно кросс-энкодеры, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, несмотря на свою высокую стоимость, считается, что переранжировщики более эффективны. Мы ставим под сомнение это предположение, измеряя эффективность переранжировщиков при полном извлечении документов, а не только при повторной оценке результатов первого этапа поиска. Наши эксперименты выявили неожиданную тенденцию: лучшие существующие переранжировщики дают убывающую отдачу при оценке все большего числа документов и фактически ухудшают качество после определенного предела. На самом деле, в данном контексте переранжировщики часто присваивают высокие оценки документам, которые не имеют ни лексического, ни семантического совпадения с запросом. Мы надеемся, что наши выводы стимулируют будущие исследования по улучшению переранжирования.

Путешествие в Мир Генеративного Исследования: Введение в Genex

Планирование с частичным наблюдением является ключевой проблемой в области воплощённого ИИ. Большинство предыдущих работ решали эту проблему, разрабатывая агентов, которые физически исследуют свою среду для обновления своих представлений о состоянии мира. В отличие от этого, люди могут представлять невидимые части мира через умственное исследование и пересматривать свои представления с помощью воображаемых наблюдений. Такие обновлённые представления позволяют им принимать более обоснованные решения, не требуя постоянного физического исследования мира. Чтобы достичь этой способности, характерной для человека, мы представляем Генеративного Исследователя Мира (Genex), фреймворк для исследования мира с эгоцентрической точки зрения, который позволяет агенту мысленно исследовать большой трёхмерный мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего представления. Это обновлённое представление затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаём синтетический набор данных городских сцен, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать высококачественные и согласованные наблюдения при длительном исследовании большого виртуального физического мира и (2) представления, обновлённые с помощью сгенерированных наблюдений, могут информировать существующую модель принятия решений (например, агента LLM) для составления лучших планов.