Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "language"

BiMediX2: Билингвальная Модель Больших Модальностей для Медицинских Приложений

В данной статье представлен BiMediX2 — двуязычная (арабско-английская) биомедицинская экстра-large мультимодель (LMM) с унифицированной архитектурой, которая интегрирует текстовые и визуальные модальности, что позволяет осуществлять продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности, чтобы обеспечить бесшовное взаимодействие как на английском, так и на арабском языках, поддерживая текстовые вводы и многопроцессные разговоры с участием медицинских изображений. Модель обучена на обширном двуязычном наборе данных по здравоохранению, который состоит из 1,6 миллиона примеров разнообразных медицинских взаимодействий как для текстовых, так и для визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первую двуязычную оценку LMM на основе GPT-4o, названную BiMed-MBench. BiMediX2 оценивался как по текстовым, так и по визуальным задачам, демонстрируя передовую производительность по нескольким медицинским оценкам. Она превосходит последние образцы наивысшего уровня в оценках медицинских LLM. Наша модель также устанавливает новую оценку в многомодальных медицинских оценках с более чем 9%-ным улучшением в английских оценках и более чем 20%-ным улучшением в арабских оценках. Кроме того, она превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и демонстрирует отличные результаты в различных медицинских задачах, таких как визуальные вопросы-ответы, генерация отчетов и суммирование отчетов. Страница проекта с исходным кодом и обученной моделью доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.

Lyra: Эффективная и ориентированная на речь платформа для омни-когниции

По мере развития много-modalных больших языковых моделей (MLLM) расширение возможностей за пределами одно-доменных является необходимым для удовлетворения требований к более универсальному и эффективному ИИ. Однако предыдущие омни-модели недостаточно исследовали речь, пренебрегая ее интеграцией с много-modalностью. Мы представляем Лиру, эффективную MLLM, которая усиливает много-модальные способности, включая продвинутое понимание долгой речи, понимание звука, эффективность кросс-модальности и бесшовное взаимодействие со словом. Для достижения эффективности и речевых центристских возможностей Лира применяет три стратегии: (1) использование существующих открытых больших моделей и предложенной много-модальной LoRA для снижения затрат на обучение и требований к данным; (2) использование регуляризатора и экстрактора латентной много-модальности для укрепления взаимосвязи между речью и другими модальностями, тем самым повышая производительность модели; и (3) создание качественного, обширного набора данных, который включает 1,5 миллиона много-модальных (язык, зрение, звук) образцов данных и 12 000 образцов долгой речи, что позволяет Лире обрабатывать сложные долгие речевые вводы и достигать более надежного омни-когнитивного результата. По сравнению с другими омни-методами, Лира демонстрирует производительность на уровне лучших образцов на различных тестах зрение-язык, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В данной статье представлен RuleArena, новый и сложный ориентир, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам из реальной жизни в рассуждениях. Охватывая три практические области — сборы за багаж авиакомпаний, сделки НБА и налоговое законодательство — RuleArena оценивает мастерство LLM в обработке сложных инструкций на естественном языке, требующих понимания длинного контекста, логического рассуждения и точных математических расчетов. Две ключевые особенности отличают RuleArena от традиционных ориентиров на основе правил: (1) он выходит за пределы стандартных представлений логики первого порядка и (2) он основан на подлинных практических сценариях, предоставляя информацию о пригодности и надежности LLM для применения в реальных условиях. Наши результаты выявляют несколько заметных ограничений в LLM: (1) они испытывают трудности с идентификацией и применением соответствующих правил, часто путаясь в схожих, но различных регламентах, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом, они демонстрируют плохие результаты в тестировании. Эти результаты подчеркивают значительные проблемы в развитии возможностей рассуждения LLM на основе правил в реальных приложениях.

Влияние авторских материалов на большие языковые модели: Норвежская перспектива

Использование материалов с авторскими правами в обучении генеративных языковых моделей поднимает критически важные юридические и этические вопросы. В данной статье представлен фреймворк и результаты эмпирической оценки влияния материалов с авторскими правами на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на оценку моделей по разнообразным норвежским эталонам, в то время как художественные произведения, возможно, приводят к снижению производительности. Наши эксперименты могут способствовать созданию схемы компенсации для авторов, чьи работы вносят вклад в развитие ИИ.

Модель POINTS1.5: Прорыв в области моделей "визуальный-язык"

Модели визуального языка достигли значительных успехов в последнее время, демонстрируя превосходные результаты в различных задачах, например, в оптическом распознавании символов и сложном анализе диаграмм. Опираясь на эту тенденцию, мы представляем новую модель визуального языка POINTS1.5, разработанную для достижения высоких результатов в различных реальных приложениях. POINTS1.5 является улучшением POINTS1.0 и включает несколько ключевых нововведений: i) Мы заменили оригинальный визуальный энкодер CLIP, который имел фиксированное разрешение изображения, на визуальный энкодер в стиле NaViT, поддерживающий родное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавили двуязычную поддержку в POINTS1.5, значительно улучшив её возможности на китайском языке. Из-за нехватки открытых китайских наборов данных для моделей визуального языка мы собрали множество изображений из Интернета и аннотировали их с использованием комбинации вручную и автоматизированными методами. iii) Мы предложили набор строгих методов фильтрации наборов данных для настройки визуальных инструкций. Мы всесторонне оценили все эти методы фильтрации и выбрали самые эффективные для получения окончательного набора визуальных инструкций. Благодаря этим новшествам POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует хорошую производительность в различных реальных приложениях. Особенно стоит отметить, что POINTS1.5-7B обучен на менее чем 4 миллиардах токенов и занимает первое место в таблице лидеров OpenCompass среди моделей с менее чем 10 миллиардами параметров.

Maya: Многоязычная мультимодальная модель, настроенная на инструкции

Быстрое развитие крупных моделей «Видение-Язык» (VLM) привело к впечатляющим результатам по академическим бенчмаркам, в первую очередь на широко распространенных языках. Однако остаются значительные пробелы в способности современных VLM справляться с языками с низкими ресурсами и разнообразными культурными контекстами, в значительной степени из-за нехватки качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают трудности с пониманием языков с низкими ресурсами и культурных нюансов без токсичности. Чтобы устранить эти ограничения, мы представляем Maya — открытую многомодальную многоязычную модель. Наши вклад заключаются в трех аспектах: 1) многоязычный набор данных для предобучения изображений и текста на восьми языках, основанный на наборе данных предобучения LLaVA; 2) тщательный анализ токсичности внутри набора данных LLaVA, за которым следует создание новой версии без токсичности на восьми языках; и 3) многоязычная модель для работы с изображениями и текстом, поддерживающая эти языки, что позволяет улучшить культурное и лингвистическое понимание в задачах по визуальному восприятию языка. Код доступен по адресу https://github.com/nahidalam/maya.

EXAONE 3.5: Новые горизонты для больших языковых моделей

Этот технический отчет представляет модели языков EXAONE 3.5, настроенные на выполнение инструкций, разработанные и выпущенные исследовательской командой LG AI. Модели языка EXAONE 3.5 предлагаются в трех конфигурациях: 32B, 7.8B и 2.4B. Эти модели обладают несколькими выдающимися способностями: 1) исключительные возможности следования инструкциям в реальных сценариях, достигающие наивысших баллов по семи бенчмаркам, 2) выдающееся понимание длинного контекста, достигающее лучших результатов в четырех бенчмарках, и 3) конкурентоспособные результаты по сравнению с современными открытыми моделями аналогичного размера по девяти общим бенчмаркам. Модели языка EXAONE 3.5 открыты для всех в исследовательских целях и могут быть загружены с https://huggingface.co/LGAI-EXAONE. Для коммерческого использования, пожалуйста, свяжитесь с официальной контактной точкой LG AI Research: [email protected].

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

Персонализированные многомодальные большие языковые модели: Обзор

Мультимодальные большие языковые модели (MLLMs) становятся все более важными благодаря своему высокому уровню производительности и способности интегрировать несколько модальностей данных, таких как текст, изображения и аудио, для выполнения сложных задач с высокой точностью. В данной работе представлен всесторонний обзор персонализированных мультимодальных больших языковых моделей, с акцентом на их архитектуру, методы обучения и применения. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLMs для отдельных пользователей, и обсуждаем соответствующие техники. Более того, мы рассматриваем, как такие техники могут быть объединены или адаптированы, когда это уместно, подчеркивая их преимущества и имеющуюся подоплеку. Мы также предоставляем краткое резюме задач персонализации, исследованных в существующих исследованиях, наряду с метриками оценки, которые обычно используются. Кроме того, мы обобщаем наборы данных, которые полезны для бенчмаркинга персонализированных MLLMs. Наконец, мы наметим критические открытые задачи. Этот обзор призван стать ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных мультимодальных больших языковых моделей.

Дискриминативная дообучаемость больших моделях зрения и языка (LVLM)

Контрастно обученные модели зрения и языка (VLM), такие как CLIP, стали де-факто подходом для обучения предствления зрения и языка с учетом различий. Однако у этих моделей ограниченное понимание языка, которое часто проявляется в поведении «мешка слов». В то же время крупные модели зрения и языка (LVLM), которые комбинируют кодировщики зрения с большими языковыми моделями (LLM), показали свою способность к детальному рассуждению на основе зрения и языка, но их авторегрессивная природа делает их менее подходящими для дискриминационных задач. В этой работе мы предлагаем комбинировать «лучшее из обоих миров»: новый подход к обучению для дискриминационной тонкой настройки LVLM, который обеспечивает сильные способности к различению и композиции. В основном, наш подход преобразует генеративную LVLM в дискриминационную, разблокируя ее возможности для мощного различения изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную обучающую/оптимизационную структуру, которая использует пары изображений и текста переменной длины и тонкости для обучения модели с учетом контрастной потери и потерь предсказания следующего токена. Это сопровождается абляционными исследованиями, которые обосновывают необходимость компонентов нашей структуры. (2) Эффективный метод адаптации параметров с использованием комбинации мягкого запроса и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями подобными CLIP схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные улучшения в композиционности.

Florence-VL: Улучшение моделей языка и зрения с помощью генеративного визуального кодировщика и слияния глубины и ширины

Мы представляем Florence-VL, новую семью мультимодальных больших языковых моделей (MLLMs) с улучшенными визуальными представлениями, созданными с помощью Florence-2, генеративной модели основ визуального восприятия. В отличие от широко используемого трансформера CLIP, обученного с помощью контрастивного обучения, Florence-2 может захватывать различные уровни и аспекты визуальных признаков, которые более универсальны для адаптации к разнообразным задачам. Мы предлагаем новую архитектуру слияния признаков и инновационный процесс обучения, который эффективно интегрирует визуальные признаки Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем «слияние глубины и ширины (DBFusion)» для слияния визуальных признаков, извлеченных с разных глубин и под множеством запросов. Обучение нашей модели состоит из полного предварительного обучения всей модели, за которым следует тонкая настройка проекционного слоя и LLM, на тщательно разработанном рецепте разнообразных открытых датасетов, которые включают высококачественные изображения с подписями и пары для настройки инструкций. Наш количественный анализ и визуализация визуальных признаков Florence-VL демонстрируют его преимущества по сравнению с популярными визуальными кодировщиками в выравнивании визуального языка, где обогащенные глубина и ширина играют важные роли. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLMs по различным мультимодальным и визуально-центристским эталонам, охватывающим общий VQA, восприятие, галлюцинацию, OCR, графики, знаниевое понимание и т. д. Для облегчения будущих исследований наши модели и полный процесс обучения открыты для сообщества. https://github.com/JiuhaiChen/Florence-VL

SynFinTabs: Новый набор данных для извлечения информации из финансовых таблиц

Извлечение таблиц из изображений документов является сложной задачей для ИИ, и метка данных для многих содержательных областей трудно достижима. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных академических статей и их исходных кодов. Однако существуют значительные различия в структуре и типографике таблиц, обнаруженных в научной, финансовой и других областях. Текущие наборы данных часто не содержат слова и их позиции, находящиеся в таблицах, вместо этого полагаясь на ненадежное распознавание текста для извлечения этих характеристик для обучения современных моделей машинного обучения в задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения помеченных данных. Мы представляем SynFinTabs, крупномасштабный помеченный набор данных синтетических финансовых таблиц. Мы надеемся, что наш метод генерации этих синтетических таблиц будет переносим на другие области. Чтобы продемонстрировать эффективность нашего набора данных в обучении моделей для извлечения информации из изображений таблиц, мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлечения вопросов и ответов. Мы тестируем нашу модель, используя реальные финансовые таблицы, и сравниваем ее с современной генеративной моделью, обсуждая результаты. Мы делаем набор данных, модель и код генерации набора данных общедоступными.

V,ARCO,-V,ISION: Расширение границ корейских моделей "визуальный-язык"

В этой статье мы представляем открытый корейско-английский модель зрения-языка (VLM) под названием VARCO-VISION. Мы включаем пошаговую стратегию обучения, которая позволяет модели изучать как лингвистическую, так и визуальную информацию, сохраняя при этом знания базовой модели. Наша модель демонстрирует выдающиеся результаты в различных условиях, требующих двуязычного понимания и генерации изображений и текста по сравнению с моделями аналогичного размера. VARCO-VISION также способна на привязку, ссылки и оптическое распознавание знаков (OCR), расширяя свои возможности и потенциальные применения для реальных сценариев. В дополнение к модели мы выпускаем пять корейских датасетов для оценки, включая четыре закрытых и один открытый бенчмарк. Мы ожидаем, что наша веха расширит возможности для исследователей ИИ, стремящихся обучать VLM. VARCO-VISION доступна по ссылке https://huggingface.co/NCSOFT/VARCO-VISION-14B.

LSceneLLM: Улучшение понимания больших 3D-сцен с помощью адаптивных визуальных предпочтений

Исследования по 3D Vision-Language Models (3D-VLMs) привлекают все большее внимание, что имеет решающее значение для разработки воплощенного ИИ в 3D-сценах, таких как визуальная навигация и воплощенный ответ на вопросы. Из-за высокой плотности визуальных признаков, особенно в больших 3D-сценах, точно локализовать визуальную информацию, относящуюся к задаче, сложно. Существующие работы пытаются сегментировать все объекты и рассматривать их признаки как представления сцены. Однако эти независимые от задач признаки объектов содержат много избыточной информации и недостающие детали для области, релевантной задаче. Чтобы решить эти проблемы, мы предлагаем LSceneLLM, адаптивную структуру, которая автоматически идентифицирует области, относящиеся к задаче, используя визуальные предпочтения LLM для различных задач, а затем модуль увеличителя сцены, который захватывает детализированные данные в выбранных областях. В частности, плотный селектор токенов анализирует карту внимания LLM для определения визуальных предпочтений для входных инструкций. Затем он увеличивает детализированные данные в фокусной области. Используется адаптивный модуль самовнимания для объединения грубых и выбранных детализированных визуальных данных. Для всесторонней оценки способности 3D-VLMs к пониманию больших сцен мы дополнительно вводим бенчмарк для понимания перекрестных комнат, XR-Scene, который включает ряд задач по пониманию больших сцен, включая XR-QA, XR-EmbodiedPlanning и XR-SceneCaption. Эксперименты показывают, что наш метод превосходит существующие методы как в понимании больших сцен, так и в существующих бенчмарках понимания сцены. Внедрение нашего модуля увеличителя сцены в существующие 3D-VLMs также приносит значительное улучшение.

X-Prompt: К универсальной генерации изображений в контексте

Генерация в контексте является ключевым компонентом способности больших языковых моделей (LLM) к обобщению в открытых задачах. Используя несколько примеров в качестве контекста, LLM могут выполнять задачи как в своей области, так и за ее пределами. Недавние достижения в области авто-регрессионных моделей, сочетающих язык и визуальные данные (VLM), основанных на LLM, продемонстрировали впечатляющую эффективность в генерации текста в изображения. Однако потенциал обучения в контексте для генерации изображений в целом остается в значительной степени неосвещенным. Чтобы решить эту проблему, мы представляем X-Prompt — чисто авто-регрессионную крупную языковую модель для обработки визуальных данных, разработанную для обеспечения конкурентоспособной производительности в широком диапазоне задач генерации изображений как видимых, так и невидимых, в рамках единой структуры обучения в контексте. X-Prompt включает в себя специализированный дизайн, который эффективно сжимает ценные признаки из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая свою способность обобщать на незнакомые задачи. Единая задача обучения как для текстового, так и для визуального предсказания позволяет X-Prompt справляться с генерацией изображений в общем с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты проверяют производительность модели по разнообразным задачам генерации видимых изображений и ее способность обобщать на ранее невидимые задачи.

VLSBench: Понимание визуальных утечек в многомодальной безопасности

Проблемы безопасности многомодальных больших языковых моделей (MLLM) постепенно становятся важной проблемой в различных приложениях. Удивительно, но предыдущие работы указывают на контр-интуитивное явление, что использование текстового аннулирования для выравнивания MLLM достигает сопоставимых показателей безопасности с MLLM, обученными на парах изображений и текста. Чтобы объяснить такое контр-интуитивное явление, мы обнаруживаем проблему утечки визуальной информации о безопасности (VSIL) в существующих многомодальных эталонах безопасности, т.е. потенциально рискованное и чувствительное содержимое в изображении было раскрыто в текстовом запросе. Таким образом, MLLM могут легко отказать в этих чувствительных запросах текст-изображение на основе текстовых запросов. Однако пары изображений и текстов без VSIL являются обычным явлением в реальных сценариях и игнорируются существующими многомодальными эталонами безопасности. С этой целью мы создаем многомодальный эталон безопасности без утечек визуальной информации (VLSBench), предотвращающий утечку визуальной информации о безопасности от изображения к текстовому запросу с 2,4 тыс. пар изображений и текста. Экспериментальные результаты показывают, что VLSBench представляет собой серьезный вызов как для открытых, так и для закрытых MLLM, включая LLaVA, Qwen2-VL, Llama3.2-Vision и GPT-4o. Это исследование показывает, что текстовое выравнивание достаточно для многомодальных сценариев безопасности с VSIL, в то время как многомодальное выравнивание является более многообещающим решением для многомодальных сценариев безопасности без VSIL. Пожалуйста, смотрите наш код и данные на: http://hxhcreate.github.io/VLSBench

Изучение возможностей больших языковых моделей в решении пропорциональных аналогий с помощью улучшенного запроса знаний

Создание аналогий является основополагающим для когнитивной деятельности. Пропорциональные аналогии, состоящие из четырех терминов, часто используются для оценки языковых и когнитивных способностей. Например, завершение аналогий типа "Кислород относится к Газу, как <пусто> относится к <пусто>" требует выявления семантической связи (например, "тип") между первой парой терминов ("Кислород" и "Газ") и нахождения второй пары, которая разделяет ту же связь (например, "Алюминий" и "Металл"). В этой работе мы представляем набор данных из 15 тысяч многовариантных вопросов (MCQA) для завершения пропорциональных аналогий и оцениваем производительность современных крупных языковых моделей (LLM) в различных настройках с усилением знаний. В частности, мы дополняем подсказки тремя типами знаний: образцом, структурированным и целевым. Наши результаты показывают, что, несмотря на обширные обучающие данные, решение пропорциональных аналогий остается сложной задачей для современных LLM, причем лучшая модель достигает точности 55%. Примечательно, что мы находим, что предоставление целевого знания может лучше помочь моделям в завершении пропорциональных аналогий по сравнению с предоставлением образцов или коллекций структурированных знаний.

LLM Teacher-Student Framework for Multilingual News Topic Classification

С учетом постоянно увеличивающегося количества новостных статей, доступных в интернете, классификация их по темам, независимо от языка, на котором они написаны, стала важной для улучшения доступа читателей к соответствующему контенту. Для решения этой задачи мы предлагаем структуру «учитель-ученик», основанную на больших языковых моделях (LLM), для разработки многоязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. Эта структура использует модель Generative Pretrained Transformer (GPT) в качестве учительской модели для разработки обучающего набора данных по темам медиа IPTC через автоматическую аннотацию новостных статей на словенском, хорватском, греческом и каталанском языках. Модель учителя демонстрирует высокие показатели «нулевого выстрела» на всех четырех языках. Согласованность с человеческими аннотаторами сопоставима с взаимной согласованностью самих аннотаторов. Чтобы смягчить вычислительные ограничения, связанные с необходимостью обрабатывать миллионы текстов ежедневно, меньшие модели типа BERT дообучаются на аннотированном наборе данных GPT. Эти студенческие модели показывают результаты, сопоставимые с моделью учителя. Кроме того, мы исследуем влияние размера обучающего набора данных на производительность студенческих моделей и рассматриваем их монолингвистские, многоязычные и возможности нулевого выстрела. Результаты показывают, что студенческие модели могут достигать высокой производительности с относительно небольшим числом обучающих экземпляров и демонстрируют сильные способности нулевого выстрела в межязыковом применении. Наконец, мы публикуем классификатор тем новостей с наилучшей производительностью, позволяющий многоязычную классификацию с верхними категориями схемы тем IPTC Media.

Разработка интеллектуальных агентов для графических интерфейсов: Взгляд на модель ShowUI

Разработка графических интерфейсов пользователя (GUI) для помощников обещает значительные перспективы для повышения продуктивности рабочих процессов человека. Хотя большинство агентов основаны на языковых технологиях и используют закрытые API с богатой текстовой мета-информацией (например, HTML или дерево доступности), они проявляют ограничения в восприятии визуалов интерфейса так, как это делают люди, что подчеркивает необходимость в агентах, способных визуально воспринимать GUI. В данной работе мы разрабатываем модель видео-языковых действий в цифровом мире, называемую ShowUI, которая включает следующие инновации: (i) Выбор визуальных токенов, руководимый UI, для снижения вычислительных затрат путем формулирования скриншотов в виде связанного графа UI, адаптивно выявляя их избыточные отношения и используя их в качестве критериев для выбора токенов в блоках само-внимания; (ii) Потоковое смешивание видео, языка и действий, которое гибко объединяет разнообразные потребности в задачах GUI, позволяя эффективно управлять историей визуальных действий при навигации или сопоставлении последовательностей запросов-действий на каждый скриншот для повышения эффективности обучения; (iii) Создание малых, но качественных наборов данных с инструкциями для GUI путем тщательного отбора данных и применения стратегии пересэмплирования для решения проблемы значительного дисбаланса типов данных. С помощью вышеперечисленных компонентов, ShowUI, легковесная модель на 2 миллиарда параметров, использующая 256K данных, достигает высокой точности в 75.1% при нулевом тестировании на привязке к скриншотам. Ее выбор токенов, руководимый UI, дополнительно сокращает на 33% избыточные визуальные токены во время обучения и ускоряет производительность в 1.4 раза. Эксперименты по навигации в средах web Mind2Web, мобильного AITW и онлайн MiniWob подчеркивают эффективность и потенциал нашей модели для развития визуальных агентов GUI. Модели доступны по адресу https://github.com/showlab/ShowUI.

SketchAgent: Language-Driven Sequential Sketch Generation

Эскизирование служит универсальным инструментом для внешнего выражения идей, позволяя быстро исследовать и визуально коммуницировать через различные дисциплины. Хотя искусственные системы привели к значительным достижениям в создании контента и взаимодействии человека с компьютером, задача по захвату динамичной и абстрактной природы человеческих эскизов остается сложной. В данной работе мы представляем SketchAgent — метод генерации последовательных эскизов, управляемый языком, который позволяет пользователям создавать, изменять и уточнять эскизы через динамичные, разговорные взаимодействия. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и богатые предварительные знания готовых мультимодальных крупных языковых моделей (LLM). Мы представляем интуитивно понятный язык эскизирования, который вводится в модель через примеры в контексте, позволяя ей "рисовать" с помощью строковых действий. Эти действия преобразуются в векторную графику и затем отображаются для создания эскиза на пиксельном холсте, который можно снова использовать для дальнейших задач. Рисуя мазок за мазком, наш агент улавливает развивающиеся, динамичные качества, присущие эскизированию. Мы демонстрируем, что SketchAgent способен генерировать эскизы из разнообразных запросов, участвовать в диалоговом рисовании и значимо сотрудничать с пользователями.

FINE CAPTION: Композиционное описание изображений с фокусом на любую область с любой детализацией

Появление больших моделей видео-языкового взаимодействия (VLMs) значительно продвинуло многомодальные задачи, обеспечив более сложное и точное рассуждение в различных приложениях, включая описание изображений и видео, ответы на визуальные вопросы и кросс-модальное извлечение. Несмотря на их выдающиеся возможности, VLMs сталкиваются с трудностями в восприятии детальной информации о композиции областей изображения. В частности, они с трудом могут точно сопоставить маски сегментации с соответствующими семантическими элементами и детально описать композиционные аспекты указанных областей. Однако композиционность - способность понимать и генерировать новые комбинации известных визуальных и текстовых компонентов - критически важна для обеспечения согласованного рассуждения и понимания между модальностями в VLMs. Для решения этой проблемы мы предлагаем FINECAPTION, новую VLM, которая способна распознавать произвольные маски как референциальные входные данные и обрабатывать изображения высокого разрешения для описания изображений на различных уровнях детализации. В поддержку этой работы мы представляем COMPOSITIONCAP, новый набор данных для многогранного описания регионов изображения с учетом композиции, который вводит задачу описания изображений с учетом атрибутов регионов. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми VLMs. Кроме того, мы анализируем возможности текущих VLMs в распознавании различных визуальных подсказок для композиционного описания регионов изображения, выделяя области, требующие улучшения в дизайне и обучении VLM.

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

Терпение - ключ к рассуждениям больших языковых моделей

Недавние достижения в области крупных языковых моделей, особенно с использованием метода цепочки мыслей (CoT), продемонстрировали значительное улучшение в решении сложных задач. Однако существующие модели либо склонны жертвовать детализированным рассуждением ради краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для освоения сложных способностей к рассуждению, что ограничивает их потенциал в решении комплексных задач. Чтобы преодолеть этот разрыв, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, который поощряет модели к более терпеливому стилю рассуждений без необходимости введения новых знаний или навыков. Для реализации подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений в качестве положительных примеров и простые ответы — как отрицательные примеры, тем самым обучая модель отдавать предпочтение тщательности в своих ответах. Наши результаты показывают увеличение производительности до 6.7% на GSM8k при обучении только на легковесном наборе данных.

Объединённый поиск: Создание доступных адаптаций LLM для языков с ограниченными ресурсами

Большие языковые модели (LLMs) показывают низкие результаты на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает данные из Common Crawl с использованием минимальных вычислительных ресурсов, что позволяет получить монолингвальные наборы данных значительно большего объема, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для дообучения многоязычных LLM с помощью эффективных адаптерных методов (QLoRA) значительно улучшает производительность на языках с ограниченными ресурсами, при этом минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение перплексии языковой модели и увеличение баллов при использовании few-shot подходов. Наша работа и выпущенный исходный код предоставляют доступный способ улучшения LLM для языков с ограниченными ресурсами с использованием потребительского оборудования. Исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.

Insight-V: Разведка долгосрочного визуального рассуждения с многомодальными моделями больших языков

Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность благодаря более глубокому рассуждению, эволюционируя от подсказок в цепочке мыслей к решениям уровня продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, данные высокого качества для долгосрочного рассуждения и оптимизированные обучающие конвейеры все еще недостаточно исследованы в задачах, связанных с обработкой изображений и языка. В этой статье мы представляем Insight-V, раннюю попытку 1) масштабно создавать длинные и надежные данные для рассуждения для сложных мультимодальных задач и 2) эффективный обучающий конвейер для улучшения способностей рассуждения многоязыковых больших языковых моделей (MLLM). В частности, для создания длинных и структурированных данных рассуждения без человеческого труда мы разработали двухэтапный конвейер с прогрессивной стратегией, чтобы генерировать достаточно длинные и разнообразные пути рассуждений, а также метод многоуровневой оценки для обеспечения качества данных. Мы заметили, что непосредственное обучение MLLM с такими длинными и сложными данными рассуждения не приводит к идеальным способностям рассуждения. Для решения этой проблемы мы разработали мультиагентную систему, состоящую из агента рассуждения, специализирующегося на выполнении долгосрочных рассуждений, и агента сводки, обученного оценивать и обобщать результаты рассуждений. Мы также внедрили итерационный алгоритм DPO для повышения стабильности и качества генерации рассуждений агентом. На основе популярной модели LLaVA-NeXT и нашего более мощного базового MLLM мы демонстрируем значительное улучшение производительности по сложным мультимодальным бенчмаркам, требующим визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также может легко поддерживать или улучшать производительность в задачах, ориентированных на восприятие мультимодальных данных.

Естественное Языковое Усиление Обучения (NLRL): Введение в новый парадигм

Усиленное обучение (RL) математически формулирует процесс принятия решений с помощью Марковского процесса принятия решений (MDP). С использованием MDP исследователи достигли замечательных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность — Усиленное обучение на естественном языке (NLRL), путем расширения традиционного MDP на пространство представлений на основе естественного языка. В частности, NLRL инновационно переопределяет принципы RL, включая цели задач, политику, функцию стоимости, уравнение Беллмана и итерацию политики, на их языковые аналоги. С недавними достижениями в области крупных языковых моделей (LLMs), NLRL может быть реализован на практике для достижения улучшения политики и стоимости, аналогичного RL, либо через чистое подсказывание, либо через обучение на основе градиентов. Эксперименты на играх Лабиринт, Прорыв и Крестики-нолики демонстрируют эффективность, производительность и интерпретируемость фреймворка NLRL в различных сценариях использования. Наш код будет опубликован по адресу https://github.com/waterhorse1/Natural-language-RL.

ITACLIP: Совершенствование обучения без учителя для семантической сегментации

Недавние достижения в области фундаментальных моделей языка и зрения (VLMs) изменили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в области открытого словаря задач компьютерного зрения, включая семантическую сегментацию с открытым словарём (OVSS). Хотя первоначальные результаты обнадёживают, возможности плотного предсказания VLMs всё ещё требуют дальнейшего улучшения. В этом исследовании мы повышаем производительность семантической сегментации CLIP за счёт введения новых модулей и модификаций: 1) Архитектурные изменения в последнем слое ViT и включение карт внимания из средних слоёв вместе с последним слоем. 2) Инженерия изображений: применение аугментации данных для обогащения представлений входных изображений. 3) Использование больших языковых моделей (LLMs) для генерации определений и синонимов для каждого названия класса, чтобы использовать возможности CLIP с открытым словарём. Наш метод без обучения, ITACLIP, превосходит текущие лучшие подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу: https://github.com/m-arda-aydn/ITACLIP.

Введение в BLIP3-KALE: Создание знание-обогащённых плотных описаний изображений

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображение-текст, который преодолевает разрыв между описательными синтетическими подписями и фактическими текстами альтернативного описания веб-уровня. KALE дополняет синтетические плотные описания изображений альтернативными текстами веб-уровня для создания обоснованных фактически подписей к изображениям. Наш двухэтапный подход использует крупные модели обработки зрительно-языковой информации и языковые модели для создания подписей, обогащенных знаниями, которые затем используются для обучения специализированной VLM для масштабирования набора данных. Мы обучаем модели обработки зрительно-языковой информации на KALE и демонстрируем улучшения в задачах, связанных с визуальным и языковым восприятием. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы публикуем набор данных KALE по адресу https://huggingface.co/datasets/Salesforce/blip3-kale.

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

ВидеоGLaMM: Модель для точной визуальной привязки в видео

Точное согласование между видео и текстом является сложной задачей из-за сложной пространственной и временной динамики в видео. Существующие видеобазированные крупномасштабные мультимодальные модели (LMMs) справляются с базовыми разговорами, но испытывают трудности с точным привязыванием на уровне пикселей в видео. Для решения этой проблемы мы представляем VideoGLaMM, LMM, предназначенный для точного привязывания на уровне пикселей в видео на основе текстовых вводов, предоставленных пользователем. Наш дизайн безупречно соединяет три ключевых компонента: крупномасштабную языковую модель, двойной визуальный энкодер, который акцентирует внимание как на пространственных, так и на временных деталях, и пространственно-временной декодер для точной генерации масок. Это соединение облегчается через настраиваемые V-L и L-V адаптеры, которые обеспечивают тесное согласование между визуальным и языковым содержанием (VL). Архитектура обучена синхронизировать как пространственные, так и временные элементы видеоконтента с текстовыми инструкциями. Для обеспечения точного привязывания мы создаем мультимодальный набор данных, включающий детальные визуально-обоснованные разговоры с использованием полуавтоматической аннотационной цепочки, что приводит к разнообразному набору из 38 тысяч видео-QA триплетов, 83 тысяч объектов и 671 тысячу масок. Мы оцениваем VideoGLaMM на трех сложных задачах: генерация обоснованных разговоров, визуальное привязывание и сегментация видео по ссылке. Экспериментальные результаты показывают, что наша модель постоянно превосходит существующие подходы по всем трем задачам.

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

Оптимальные Визуальные Языковые Модели (VLM): Ключ к Эффективности

Модели языка и видения (VLMs) продемонстрировали высокую эффективность в различных задачах понимания и анализа визуальной информации. Однако их внедрение в реальном мире часто ограничено высокой задержкой при выводе из-за значительных вычислительных ресурсов, необходимых для обработки большого количества входных токенов (преимущественно из изображений) языковой моделью (LLM). Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, причем последнее стало фокусом многих недавних исследований по сжатию токенов. Однако неясно, каков оптимальный баланс, поскольку оба фактора напрямую влияют на производительность VLM. Мы впервые характеризуем этот оптимальный баланс между количеством визуальных токенов и параметрами LLM, устанавливая законы масштабирования, которые отражают изменения производительности с учетом этих двух факторов. Наши результаты выявляют неожиданную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLMs, то есть минимальная ошибка при любом фиксированном вычислительном бюджете, достигается при использовании самой большой LLM, которая вписывается в бюджет вывода, при этом минимизируя количество визуальных токенов, часто до одного токена. Хотя литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты указывают на то, что оптимальный режим вывода с точки зрения вычислительных ресурсов требует работы при еще более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы делаем первые шаги к разработке подходов, адаптированных для условий высокой компрессии токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

Динамический бенчмарк DYNAMATH для оценки устойчивости математического рассуждения в моделях видео-языкового взаимодействия

Быстрый прогресс в области моделей зрение-язык (Vision-Language Models, VLM) продемонстрировал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, которые могут надежно применять шаги решения к похожим задачам с небольшими изменениями, мы обнаружили, что передовые модели, такие как GPT-4o, часто терпят неудачу в этих сценариях, выявляя ограничения в их способности к математическому рассуждению. В данной статье мы исследуем устойчивость математического рассуждения в VLM и оцениваем, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения в визуальных числовых значениях или графиках функций. Хотя было разработано несколько визуальных математических тестов для оценки способностей VLM к решению проблем, эти тесты содержат только статические наборы задач и не могут легко оценить устойчивость математического рассуждения. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для углубленной оценки VLM. DynaMath включает 501 высококачественный, многотематический вопрос-образец, каждый из которых представлен в виде Python-программы. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность к обобщению у VLM, анализируя их производительность при изменяющихся входных условиях для вопроса-образца. Мы оценили 14 передовых VLM с помощью 5010 сгенерированных конкретных вопросов. Наши результаты показывают, что точность модели в худшем случае, определяемая как процент правильно отвеченных вопросов-образцов во всех 10 вариантах, значительно ниже, чем средняя точность. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений VLM, и DynaMath предоставляет ценные знания для руководства разработкой более надежных моделей для математического рассуждения.

Введение в Swan и ArabicMTEB: Новые горизонты в обработке арабского языка

Мы представляем Swan, семейство моделей встраивания, ориентированных на арабский язык, которые охватывают как маломасштабные, так и крупномасштабные сценарии использования. Swan включает две вариации: Swan-Small, основанную на ARBERTv2, и Swan-Large, созданную на базе ArMistral, предобученной большой языковой модели для арабского языка. Для оценки этих моделей мы предлагаем ArabicMTEB, комплексный набор тестов, который оценивает межъязыковые, многодиалектные, многодоменные и мультикультурные характеристики встраивания арабских текстов, охватывающий восемь разнообразных задач и охватывающий 94 набора данных. Swan-Large показывает результаты на уровне лучших в своем классе, превосходя Multilingual-E5-large в большинстве задач на арабском языке, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan осознают диалектные и культурные особенности, преуспевая в различных арабских областях, при этом предлагая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в области обработки арабского естественного языка. Наши модели и бенчмарк будут сделаны общедоступными для исследований.

M2RC-EVAL: Массивно мультиязыковая оценка завершения кода на уровне репозитория

Завершение кода на уровне репозитория привлекло большое внимание в области инженерии программного обеспечения, и были представлены несколько эталонных наборов данных. Однако, существующие эталоны для завершения кода на уровне репозитория обычно охватывают ограниченное количество языков (менее 5), что не позволяет оценить общие способности интеллектуального анализа кода для существующих моделей больших языковых моделей (LLMs). Кроме того, эти эталоны обычно сообщают средние показатели по всем языкам, игнорируя детализированные способности в различных сценариях завершения кода. Поэтому, для содействия исследованиям LLMs для кода в многоязычных сценариях, мы предлагаем массово многоязычный эталонный набор данных для завершения кода на уровне репозитория, охватывающий 18 языков программирования (названный M2RC-EVAL), а также два типа детализированных аннотаций (на уровне блоков и на семантическом уровне) для различных сценариев завершения. Эти аннотации мы получаем на основе разбора абстрактного синтаксического дерева. Более того, мы также собрали массивный многоязычный набор инструкций M2RC-INSTRUCT, чтобы улучшить способности завершения кода на уровне репозитория у существующих LLMs. Комплексные экспериментальные результаты демонстрируют эффективность наших M2RC-EVAL и M2RC-INSTRUCT.

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

GlotCC: Открытый Корпус и Пайплайн для Обработки Данных на Малоизученных Языках

Потребность в крупных текстовых корпусах возросла с появлением предобученных языковых моделей и, в частности, с открытием законов масштабирования для этих моделей. Большинство доступных корпусов содержат достаточное количество данных только для языков с большими доминирующими сообществами. Однако, нет корпуса, который бы (i) охватывал широкий спектр языков меньшинств; (ii) создавался с использованием открытого и воспроизводимого конвейера; и (iii) был тщательно очищен от шума, что делает его надёжным для использования. Мы представляем GlotCC, чистый, документный, общедоменный корпус объемом 2 ТБ, созданный на основе CommonCrawl, который охватывает более 1000 языков. Мы делаем доступными GlotCC и систему, используемую для его создания, включая конвейер, модель идентификации языка и фильтры, для научного сообщества. Корпус v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Конвейер v. 3.0 https://github.com/cisnlp/GlotCC.

Как язык помогает обучению воплощенных агентов: исследование информативности и разнообразия

В реальных сценариях желательно, чтобы воплощенные агенты имели способность использовать человеческий язык для получения явного или неявного знания для выполнения задач обучения. Несмотря на недавние успехи, большинство предыдущих подходов используют простые низкоуровневые инструкции в качестве языкового ввода, что может не отражать естественное человеческое общение. Неясно, как интегрировать богатое использование языка для облегчения обучения задачам. Для решения этого вопроса в данной статье исследуются различные типы языковых вводов, способствующих обучению воплощенных агентов с использованием методов подкрепления (RL). Более конкретно, мы рассматриваем, как различные уровни информативности языка (т.е., обратная связь по прошлому поведению и будущие указания) и разнообразие (т.е., вариативность языковых выражений) влияют на обучение и вывод агента. Наши эмпирические результаты, основанные на четырех RL-эталонах, показывают, что агенты, обученные с разнообразной и информативной языковой обратной связью, могут достичь улучшенной обобщаемости и быстрой адаптации к новым задачам. Эти выводы подчеркивают ключевую роль использования языка в обучении воплощенных агентов новым задачам в открытом мире. Сайт проекта: https://github.com/sled-group/Teachable_RL