Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "datasets"

Новая Парадигма Оценки Глубины: PromptDepthAnything

Подсказки играют критическую роль в раскрытии потенциала языковых и визионных базовых моделей для конкретных задач. Впервые мы вводим подсказки в модели глубины, создавая новую парадигму для метрической оценки глубины, названную Prompt Depth Anything. В частности, мы используем недорогой LiDAR в качестве подсказки для управления моделью Depth Anything для точного метрического вывода глубины, достигая разрешения до 4K. Наш подход сосредоточен на компактном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Чтобы справиться с проблемами обучения, вызванными ограниченными наборами данных, содержащими как глубину LiDAR, так и точную глубину GT, мы предлагаем масштабируемый конвейер данных, который включает в себя синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины из реальных данных. Наш подход устанавливает новые достижения на наборах данных ARKitScenes и ScanNet++ и приносит пользу downstream приложениям, включая 3D-реконструкцию и обобщенное робототехническое захватывание.

AnySat: Модель наблюдения за Землёй для любых разрешений, масштабов и модальностей

Геопространственные модели должны адаптироваться к разнообразию данных дистанционного зондирования Земли с точки зрения разрешений, масштабов и модальностей. Однако существующие подходы ожидают фиксированных входных конфигураций, что ограничивает их практическое применение. Мы предлагаем AnySat, мультимодель, основанную на архитектуре совместного встраивания предсказания (JEPA) и разрешающем пространственном кодере, что позволяет нам обучать одну модель на высокогетерогенных данных в самонаправленном режиме. Чтобы продемонстрировать преимущества этого унифицированного подхода, мы подготовили GeoPlex, сборник из 5 мультимодальных наборов данных с различными характеристиками и 11 различными датчиками. Затем мы одновременно обучаем одну мощную модель на этих разнообразных наборах данных. После донастройки мы получаем лучшие или близкие к современным достижениям результаты на наборах данных GeoPlex и 4 дополнительных для 5 задач мониторинга окружающей среды: картирование земельного покрова, идентификация видов деревьев, классификация типов культур, обнаружение изменений и сегментация наводнений. Код и модели доступны по адресу https://github.com/gastruc/AnySat.

Prompt2Perturb: Текстово-ориентированные атакующие методы диффузионного типа для изображений ультразвука молочной железы

Глубокие нейронные сети (DNN) предлагают значительные перспективы для улучшения диагностики рака молочной железы в медицинской визуализации. Однако эти модели крайне подвержены атакам с противодействием – небольшим, незаметным изменениям, которые могут вводить классификаторы в заблуждение, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки полагаются на фиксированные нормы возмущений, которые не совпадают с человеческим восприятием. В contrast, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительных данных, когда эти модели недоступны, ограничивая практическое использование в условиях нехватки данных. Однако в медицинской визуализации это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на недавних достижениях в обучаемых подсказках, мы предлагаем Prompt2Perturb (P2P), новый метод атаки, основанный на языке, способный генерировать значимые примеры атак, движимые текстовыми инструкциями. На этапе обучения подсказкам наш подход использует обучаемые подсказки в текстовом энкодере для создания тонких, но значительных возмущений, которые остаются незаметными, направляя модель к целевым результатам. В отличие от текущих подходов, основанных на обучении подсказкам, наш P2P выделяется тем, что непосредственно обновляет текстовые встраивания, избегая необходимости повторной тренировки диффузионных моделей. Более того, мы используем вывод, что оптимизация только ранних обратных шагов диффузии увеличивает эффективность, при этом обеспечивая, чтобы созданные примеры противодействия включали тонкий шум, сохраняя при этом качество ультразвуковых изображений без введения заметных артефактов. Мы показываем, что наш метод превосходит передовые методы атаки по трем наборам данных ультразвука молочной железы по FID и LPIPS. Более того, созданные изображения выглядят более естественно и более эффективно по сравнению с существующими атаками с противодействием. Наш код будет доступен публике https://github.com/yasamin-med/P2P.

Генеративная Дензфикация: Обучение для Дензификации Гауссианов для Высококачественной Генерализуемой 3D Реконструкции

Обобщенные модели гауссовских сетей с прямой связью достигли значительного прогресса в разреженной 3D-реконструкции, используя предварительные знания из больших многовидовых наборов данных. Однако эти модели часто испытывают трудности при представлении деталей с высоким разрешением из-за ограниченного количества гауссов. Хотя стратегия увеличения плотности, используемая в оптимизации 3D гауссовского сплошного распыления (3D-GS), может быть адаптирована для моделей с прямой связью, она может быть не идеально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Уплотнённость, эффективный и обобщаемый метод уплотнения гауссов, генерируемых моделями с прямой связью. В отличие от стратегии уплотнения 3D-GS, которая итеративно делит и клонирует сырые параметры гаусса, наш метод повышает разрешение представлений признаков из моделей с прямой связью и генерирует соответствующие тонкие гауссы за один проход вперед, используя встроенные предварительные знания для повышения обобщения. Экспериментальные результаты по задачам реконструкции как на уровне объектов, так и на уровне сцен демонстрируют, что наш метод превосходит современные подходы с сопоставимыми или меньшими размерами моделей, достигая заметных улучшений в представлении тонких деталей.

Глобальные и плотные встраивания Земли: Основные концепции и подходы

С постоянно растущими объемами данных наблюдения за Землей, находящимися в архиве крупных программ, таких как Copernicus, возникает потребность в эффективных векторных представлениях исходных сырых данных. Подход к извлечению представлений признаков из предобученных глубоких нейронных сетей является мощным методом, который может предоставить семантические абстракции входных данных. Однако способ, которым это делается для архивов изображений, содержащих геопространственные данные, еще не определен. В этой работе предлагается расширение уже существующего общественного проекта Major TOM, сосредоточенного на предоставлении и стандартизации открытых и бесплатных наборов данных, готовых к использованию с искусственным интеллектом, для наблюдения за Землей. Кроме того, четыре глобальных и плотныхembedding набора данных открыто и бесплатно публикуются вместе с публикацией этой рукописи, что приводит к созданию самого обширного глобального открытого набора данных геопространственных визуальных встраиваний по охвату поверхности Земли.

MRGen: Диффузионный контролируемый движок данных для сегментации МРТ

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенные модальности и нехватка аннотаций масок ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемая синтезация данных для неаннотированных модальностей без необходимости в регистрационных парах данных. В частности, мы вносим следующие вклады в эту статью: (i) мы собираем и куратируем крупномасштабный радиологический набор данных изображений и текстов, MedGen-1M, который включает в себя ярлыки модальностей, атрибуты, информацию о регионах и органах, вместе с подмножеством аннотаций масок органов, чтобы поддержать исследования в области контролируемой генерации медицинских изображений; (ii) мы предлагаем основанный на диффузии движок данных, названный MRGen, который позволяет генерировать изображения, основанные на текстовых подсказках и масках, синтезируя МР-изображения для различных модальностей, которым не хватает аннотаций масок, чтобы обучать модели сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, иллюстрируя, что наш движок данных может эффективно синтезировать обучающие образцы и расширять сегментацию МРТ на неаннотированные модальности.

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.

Правда или мираж? К оценке фактической достоверности с помощью LLM-O ASIS

После внедрения крупных языковых моделей (LLMs) произошли значительные улучшения в производительности задач генерации естественного языка (NLG), включая резюмирование текста и машинный перевод. Однако LLMs по-прежнему выдают результаты, содержащие галлюцинации, то есть содержание, не основанное на фактической информации. Поэтому разработка методов для оценки фактической достоверности LLMs стала актуальной. Действительно, ресурсы для оценки фактической достоверности недавно появились. Хотя это и сложно, эти ресурсы сталкиваются с одной или несколькими из следующих ограничений: (i) они ориентированы на конкретную задачу или область; (ii) они имеют ограниченный объём, что препятствует обучению новых оценщиков фактической достоверности; (iii) они предназначены для более простых задач проверки, таких как проверка заявлений. Чтобы решить эти проблемы, мы представляем LLM-Oasis, наилучшим образом, как представляется, крупнейший ресурс для обучения оценщиков фактической достоверности от начала до конца. LLM-Oasis создаётся путём извлечения заявлений из Википедии, фальсификации подмножества этих заявлений и генерации пар фактических и нефактических текстов. Мы затем полагаемся на человеческих аннотаторов, чтобы как подтвердить качество нашего набора данных, так и создать стандартный тестовый набор для оценки систем фактической достоверности. Наши эксперименты показывают, что LLM-Oasis представляет собой значительное испытание для современных LLMs, где GPT-4o достигает до 60% точности в нашей предложенной задаче оценки фактической достоверности от начала до конца, подчеркивая его потенциал для стимулирования будущих исследований в этой области.

VISTA: Улучшение понимания видео длительного и высокого разрешения с помощью пространственно-временной аугментации

Текущие крупные мультимодальные модели (LMM) сталкиваются с серьезными проблемами при обработке и понимании видео длительного времени или высокого разрешения, что в основном связано с отсутствием высококачественных наборов данных. Чтобы решить эту проблему с точки зрения ориентированного на данные подхода, мы предлагаем VISTA, простой, но эффективный фреймворк для временного и пространственного увеличения видео, который синтезирует пары видео и текстовых инструкций длительного времени и высокого разрешения из существующих наборов данных видео и аннотаций. VISTA пространственно и временно комбинирует видео, чтобы создать новые синтетические видео с увеличенной длительностью и улучшенным разрешением, а затем производит пары вопросов и ответов, относящихся к этим вновь синтезированным видео. Основываясь на этой парадигме, мы разработали семь методов увеличения видео и создали VISTA-400K, набор данных для следования видеоинструкциям, направленный на улучшение понимания видео длительного времени и высокого разрешения. Тонкая настройка различных видео LMM на наших данных привела к среднему улучшению на 3,3 % по четырем сложным бенчмаркам для понимания длинных видео. Более того, мы представляем первый комплексный бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши тонко настроенные модели достигают увеличения производительности на 6,5 %. Эти результаты подчеркивают эффективность нашей структуры.

Искусство без искусства: Генерация художественных изображений без предварительных знаний о графическом искусстве

Мы изучаем вопрос: «Сколько знаний о предшествующем искусстве необходимо для создания искусства?» Для исследования этого вопроса мы предлагаем модель генерации текста в изображение, обученную без доступа к контенту, связанному с искусством. Затем мы вводим простой, но эффективный метод обучения адаптера искусства, используя только несколько примеров выбранных художественных стилей. Наши эксперименты показывают, что искусство, созданное с помощью нашего метода, воспринимается пользователями как сопоставимое с искусством,produced models trained on large, art-rich datasets. Наконец, с помощью техник атрибуции данных мы иллюстрируем, как примеры как художественных, так и не художественных наборов данных способствовали созданию новых художественных стилей.

Сильные модели не всегда лучшие учителя для настройки на инструкции

**Настройка инструкций широко используется для того, чтобы обеспечить эффективное выполнение инструкций пользователей большими языковыми моделями (LLM). Способности LLM к следованию инструкциям в значительной степени зависят от используемых для настройки наборов данных инструкций. Недавно появились синтетические наборы данных инструкций, которые представляют собой экономически выгодное решение для предоставления LLM разнообразных и качественных инструкций. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более эффективными учителями для настройки инструкций, и поэтому просто используют эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты с пятью базовыми моделями и двадцатью генераторами ответов показали, что более крупные и мощные модели не всегда являются лучшими учителями для более мелких моделей. Мы называем это явление парадоксом больших моделей. Мы наблюдаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и настраиваемыми базовыми моделями. Поэтому мы разработали новую метрику под названием Компенсируемое Совместимостью Вознаграждение (CAR), чтобы измерить эффективность генераторов ответов. Наши эксперименты с пятью базовыми моделями показывают, что CAR превосходит почти все базовые методы.**

НЕКО: Построение пост-распознавания с использованием моделей больших языковых моделей и специалистов по задачам

Конструкция общего назначения корректора ошибок после распознавания ставит важный вопрос: как наиболее эффективно обучить модель на большом смешении наборов данных из различных областей? Ответ заключается в изучении специфических для каждого набора данных характеристик и их интеграции в единую модель. Ранние методы достигали этого, создавая отдельные модели коррекции языка, что приводило к значительному увеличению числа параметров. В данной работе мы представляем решение с использованием концепции "Смесь экспертов" (Mixture-of-Experts, MoE), подчеркивая, что MoE - это гораздо больше, чем просто инструмент для масштабирования. Мы предлагаем MoE для многозадачной коррекции, где эксперты обучаются быть "специалистами" в области распознавания речи, перевода текста и обработки визуальной информации, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на Open ASR Leaderboard показывают, что мы исследуем новый уровень производительности, достигая в среднем относительного снижения WER на 5.0% и значительных улучшений в BLEU для задач распознавания речи и перевода. При нулевом тестировании NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15.5% до 27.6% в тесте Hyporadise. NeKo показывает конкурентоспособные результаты по грамматике и коррекции после OCR в качестве модели для многих задач.

Золотой камень: Комплексный билингвальный бенчмарк для оценки финансовых моделей большого языка

По мере того как крупные языковые модели становятся все более распространенными в финансовом секторе, возникает острая необходимость в стандартизированном методе для комплексной оценки их производительности. Однако существующие финансовые эталоны часто страдают от ограниченного охвата языков и задач, а также сталкиваются с проблемами, такими как низкое качество наборов данных и недостаточная адаптация для оценки LLM. Чтобы устранить эти недостатки, мы предлагаем "Золотой Краеугольный Камень", первый комплексный двуязычный эталон для финансовых LLM, который включает репрезентативные наборы данных на китайском и английском языках по восьми основным задачам финансовой обработки естественного языка. Этот эталон разработан на основе обширного сбора открытых данных и учета отраслевых требований и включает различные финансовые задачи, направленные на тщательную оценку способностей моделей к пониманию и генерации языка. Через сравнительный анализ основных моделей на этом эталоне, таких как GPT-4o, Llama3, FinGPT и FinMA, мы выявляем их сильные и слабые стороны в обработке сложной финансовой информации. Кроме того, мы представили в открытом доступе Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку на финансовых инструкциях, которая показывает высокие результаты на двуязычном эталоне, но все еще имеет ограничения в определенных задачах. Это исследование не только предоставляет практический инструмент оценки для крупных финансовых языковых моделей, но и направляет разработку и оптимизацию будущих исследований. Исходный код для Золотого Краеугольного Камня и веса модели Touchstone-GPT были выложены в открытый доступ на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя эволюции FinLLMs и стимулируя дальнейшие исследования в этой важной области.

Введение в IOPO: Оптимизация предпочтений входа-выхода для улучшения следования инструкциям в LLM

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям является ключевой, поскольку всё больше агентов и приложений используют LLM для разработки, где сложность инструкций быстро возрастает. Однако, с одной стороны, существует ограниченное количество данных для оценки сложных инструкций; с другой стороны, нет специализированных алгоритмов для улучшения способности следовать сложным инструкциям. В этой связи данная статья представляет TRACE, эталон для улучшения и оценки способности следовать сложным инструкциям, который включает 120 тысяч обучающих данных и 1 тысячу данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Input-Output Preference Optimization), который учитывает пары предпочтений входных и выходных данных, где LLM не только быстро адаптируются к предпочтениям ответов, но и тщательно исследуют предпочтения инструкций. Многочисленные эксперименты на данных внутри домена и за его пределами подтверждают эффективность IOPO, показывая улучшения на 8.15% и 2.18% для данных внутри домена и 6.29% и 3.13% для данных за пределами домена по сравнению с SFT и DPO соответственно.

Медицинское видео-языковое предобучение: BenchX как унифицированная платформа для оценки

Медицинская предварительная подготовка на основе зрения и языка (MedVLP) демонстрирует потенциал в обучении обобщенным и переносимым визуальным представлениям из парных и непарных медицинских изображений и отчетов. MedVLP может предоставлять полезные признаки для задач следующего уровня и облегчать адаптацию специфичных для задач моделей к новым условиям с использованием меньшего количества примеров. Однако существующие методы MedVLP часто различаются по используемым наборам данных, предварительной обработке и реализациям тонкой настройки. Это создает значительные трудности в оценке того, насколько хорошо метод MedVLP обобщается на различные клинически значимые задачи из-за отсутствия унифицированных, стандартизированных и всеобъемлющих эталонных тестов. Чтобы заполнить этот пробел, мы предлагаем BenchX, унифицированную эталонную платформу, которая позволяет проводить сравнение лицом к лицу и систематический анализ между методами MedVLP с использованием общедоступных наборов данных рентгеновских снимков грудной клетки. В частности, BenchX состоит из трех компонентов: 1) Комплексные наборы данных, охватывающие девять наборов данных и четыре медицинских задачи; 2) Наборы эталонных тестов для стандартизации предварительной обработки данных, разделения на обучающие и тестовые выборки, а также выбора параметров; 3) Унифицированные протоколы тонкой настройки, которые учитывают разнородные методы MedVLP для последовательной адаптации задач в классификации, сегментации и генерации отчетов соответственно. Используя BenchX, мы установили эталонные показатели для девяти передовых методов MedVLP и обнаружили, что производительность некоторых ранних методов MedVLP может быть улучшена настолько, чтобы превзойти более новые, что побуждает пересмотреть разработки и выводы из предыдущих работ в области MedVLP. Наш код доступен по адресу https://github.com/yangzhou12/BenchX.

SelfCodeAlign: Само-aligning для генерации кода

Перевод текста на русский: "Настройка инструкций — это метод тонкой настройки под контролем, который значительно улучшает способность больших языковых моделей (LLM) следовать инструкциям человека. Мы предлагаем SelfCodeAlign, первую полностью прозрачную и разрешительную схему для само-согласования кодовых LLM без обширных человеческих аннотаций или дистилляции. SelfCodeAlign использует ту же базовую модель для вывода на протяжении всего процесса генерации данных. Сначала она извлекает разнообразные кодовые концепции из высококачественных исходных фрагментов для генерации новых задач. Затем она генерирует несколько ответов на каждую задачу, сопоставляет каждый ответ с тестовыми случаями и проверяет их в песочнице. Наконец, выбираются примеры, прошедшие проверку, для настройки инструкций. В наших основных экспериментах мы используем SelfCodeAlign с CodeQwen1.5-7B для создания набора данных из 74 тысяч пар инструкций-ответов. Тонкая настройка на этом наборе данных приводит к модели, которая достигает 67.1 pass@1 на HumanEval+, превосходя CodeLlama-70B-Instruct, несмотря на то, что она в десять раз меньше. Во всех тестах эта модель последовательно превосходит оригинальную версию, обученную с использованием OctoPack, предыдущий метод наилучшего уровня для настройки инструкций без человеческих аннотаций или дистилляции. Кроме того, мы показываем, что SelfCodeAlign эффективен для LLM различных размеров, от 3B до 33B, и что базовые модели могут больше выиграть от согласования с их собственным распределением данных. Мы также проверяем эффективность каждого компонента в нашей схеме, показывая, что SelfCodeAlign превосходит как прямую дистилляцию из GPT-4o, так и ведущие методы дистилляции на основе GPT-3.5, такие как OSS-Instruct и Evol-Instruct. SelfCodeAlign также привел к созданию StarCoder2-Instruct, первой полностью прозрачной, разрешительно лицензированной и само-согласованной кодовой LLM, которая достигает передовых результатов в программировании."