Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "tuning"

Меньшие языковые модели лучше эволюционеров инструкций

Настройка инструкций широко используется для раскрытия полного потенциала больших языковых моделей. Примечательно, что сложные и разнообразные инструкции имеют значительное значение, так как они могут эффективно согласовывать модели с различными задачами. Тем не менее, текущие подходы к созданию масштабных инструкций преимущественно отдают предпочтение мощным моделям, таким как GPT-4 или тем, у которых более 70 миллиардов параметров, основываясь на эмпирическом предположении о том, что такие большие языковые модели (LLM) по своей сути обладают улучшенными возможностями. В данном исследовании мы ставим под сомнение это распространенное предположение и проводим глубокое исследование потенциала меньших языковых моделей (SLM) в контексте эволюции инструкций. Обширные эксперименты в трех сценариях эволюции инструкций показывают, что меньшие языковые модели (SLM) могут синтезировать более эффективные инструкции, чем LLM. Дальнейший анализ демонстрирует, что SLM обладают более широким пространством выходов во время эволюции инструкций, что приводит к более сложным и разнообразным вариантам. Мы также отмечаем, что существующие метрики не акцентируют внимание на воздействии инструкций. Таким образом, мы предлагаем IFD с учетом сложности инструкции (IC-IFD), который вводит сложность инструкции в оригинальную оценку IFD для более точной оценки эффективности данных инструкций. Наш исходный код доступен по адресу: https://github.com/HypherX/Evolution-Analysis

I,NST-IT: Усовершенствование многомодального понимания экземпляров через явную настройку визуальных подсказок

Большие мультимодальные модели (LMM) достигли значительных прорывов благодаря развитию настройки инструкций. Однако, хотя существующие модели могут понимать изображения и видео на целостном уровне, им все еще трудно осваивать понимание на уровне экземпляров, которое требует более тонкого восприятия и согласования. Понимание на уровне экземпляров имеет решающее значение, так как оно сосредоточено на конкретных элементах, которые нас больше всего интересуют. Увлекательно, что существующие работы показывают, что передовые LMM демонстрируют сильные способности понимания экземпляров, когда им предоставляются явные визуальные подсказки. Вдохновленные этим, мы представляем автоматизированный процесс аннотирования, поддерживаемый GPT-4o, для извлечения информации на уровне экземпляров из изображений и видео с помощью явного визуального побуждения для руководства по экземплярам. Основываясь на этом процессе, мы предложили Inst-IT, решение для улучшения LMM в понимании экземпляров через настройку инструкций с явными визуальными подсказками. Inst-IT состоит из эталона для диагностики мультимодального понимания на уровне экземпляров, набора данных для настройки инструкций в большом масштабе и непрерывной парадигмы обучения настройки инструкций для эффективного улучшения пространственно-временных способностей понимания экземпляров существующих LMM. Экспериментальные результаты показывают, что с помощью Inst-IT наши модели достигают не только выдающихся результатов на Inst-IT Bench, но и демонстрируют значительные улучшения по различным базам понимания изображений и видео. Это подчеркивает, что наш набор данных не только улучшает понимание на уровне экземпляров, но и укрепляет общие способности к пониманию изображений и видео.

VLsI: Вербализация слоев для взаимодействия в больших языковых моделях

Недавний всплеск высококачественных образцов визуальной настройки инструкций от закрытых моделей изображения-языка (VLM), таких как GPT-4V, ускорил выпуск открытых VLM различных размеров моделей. Однако масштабирование VLM для улучшения производительности с использованием более крупных моделей приносит значительные вычислительные проблемы, особенно для развертывания на устройствах с ограниченными ресурсами, таких как мобильные платформы и роботы. Чтобы решить эту проблему, мы предлагаем VLsI: Вербализированные Слои-в-Взаимодействия, новую семью VLM размером 2B и 7B, которая приоритизирует эффективность без ущерба для точности. VLsI использует уникальный процесс дистилляции по слоям, вводя промежуточные "вербализаторы", которые сопоставляют особенности каждого слоя с пространством естественного языка, позволяя меньшим VLM гибко соответствовать процессам вывода больших VLM. Этот подход смягчает нестабильность обучения, часто возникающую при имитации вывода, и выходит за рамки обычной настройки последнего слоя, выравнивая прогрессию по слоям меньших VLM с прогрессией больших. Мы валидируем VLsI на десяти сложных эталонах визуального языка, достигая заметных приростов производительности (11.0% для 2B и 17.4% для 7B) по сравнению с GPT-4V без необходимости масштабирования модели, слияния или архитектурных изменений.

MolReFlect: В поисках точных соответствий между молекулами и текстами

Открытие молекул является ключевой областью исследований, влияющей на все, начиная от лекарств, которые мы принимаем, до материалов, которые мы используем. В последнее время Большие Языковые Модели (LLMs) широко используются для понимания и генерации молекул, однако согласование между молекулами и их соответствующими подписями остается значительным вызовом. Ранние попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, упуская из виду детальные соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые критически важны для точных и объяснимых прогнозов. В данном случае, мы представляем MolReFlect, новую учитель-ученик схему, разработанную для контекстного выполнения молекулярно-описательных соответствий на тонком уровне. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий путем прямого извлечения ключевых фраз из подписей молекул или строк SMILES и их сопоставления с соответствующими подструктурами или характеристиками. Для уточнения этих соответствий мы предлагаем Избирательное Отражение в Контексте, которое извлекает предыдущие результаты извлечения в качестве контекстных примеров для учительской LLM для отражения, и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. В заключение, мы улучшаем процесс обучения ученической LLM через Настройку Молекул в Контексте Цепи Мысли, интегрируя тонкие соответствия и процессы рассуждений в формате Цепи Мысли. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, таким как Mistral-7B, значительно превзойти предыдущие базовые показатели, достигая передовых результатов на датасете ChEBI-20. Это достижение не только улучшает генеративные способности LLM в задаче перевода молекула-подпись, но и способствует созданию более объяснимой системы.

Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В данной статье мы представляем RAG, метод генерации изображений по тексту с учетом региональных описаний для точного компоновки макета. Региональное подсказывание или композитная генерация, позволяющая точный пространственный контроль, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако, предыдущие методы либо вводят дополнительные обучаемые модули, что ограничивает их применение только к определенным моделям, либо манипулируют картами оценок внутри слоев перекрестного внимания с помощью масок внимания, что приводит к ограниченной силе контроля при увеличении числа регионов. Чтобы справиться с этими ограничениями, мы разделяем процесс многорегиональной генерации на две подзадачи: создание отдельных регионов (Региональная Жесткая Привязка), что гарантирует правильное выполнение регионального запроса, и общую детальную доработку (Региональная Мягкая Доработка) регионов, которая игнорирует визуальные границы и усиливает взаимодействие между соседними регионами. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные неудовлетворительные регионы предыдущей генерации, оставляя все остальные регионы неизменными, без необходимости использовать дополнительные модели для дорисовки. Наш подход не требует настройки и может быть применен к другим системам как улучшение следования запросу. Количественные и качественные эксперименты показывают, что RAG превосходит предыдущие методы без настройки по привязке атрибутов и отношениям объектов.

Сильные модели не всегда лучшие учителя для настройки на инструкции

**Настройка инструкций широко используется для того, чтобы обеспечить эффективное выполнение инструкций пользователей большими языковыми моделями (LLM). Способности LLM к следованию инструкциям в значительной степени зависят от используемых для настройки наборов данных инструкций. Недавно появились синтетические наборы данных инструкций, которые представляют собой экономически выгодное решение для предоставления LLM разнообразных и качественных инструкций. Однако существующие подходы обычно предполагают, что более крупные или более мощные модели являются более эффективными учителями для настройки инструкций, и поэтому просто используют эти модели в качестве генераторов ответов на синтетические инструкции. В данной статье мы оспариваем это широко принятое предположение. Наши обширные эксперименты с пятью базовыми моделями и двадцатью генераторами ответов показали, что более крупные и мощные модели не всегда являются лучшими учителями для более мелких моделей. Мы называем это явление парадоксом больших моделей. Мы наблюдаем, что существующие метрики не могут точно предсказать эффективность генераторов ответов, поскольку они игнорируют совместимость между учителями и настраиваемыми базовыми моделями. Поэтому мы разработали новую метрику под названием Компенсируемое Совместимостью Вознаграждение (CAR), чтобы измерить эффективность генераторов ответов. Наши эксперименты с пятью базовыми моделями показывают, что CAR превосходит почти все базовые методы.**

Погружение в мир длинных документов: Бенчмарк M-LongDoc и подход к настройке с учётом извлечения информации

Способность понимать и отвечать на вопросы по документам может быть полезной во многих деловых и практических приложениях. Однако документы часто содержат длинные и разнообразные мультимодальные содержания, такие как тексты, иллюстрации и таблицы, которые для человека очень трудоемко читать полностью. Следовательно, существует срочная потребность в разработке эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, эталонный набор из 851 образца, и автоматизированную платформу для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки с учетом извлечения информации для эффективного и результативного чтения мультимодальных документов. В отличие от существующих работ, наш эталонный набор состоит из более свежих и длинных документов, содержащих сотни страниц, при этом требуя не только извлечения ответов, но и открытых решений. Насколько нам известно, наша тренировочная платформа является первой, которая напрямую решает задачу извлечения информации для длинных мультимодальных документов. Для настройки моделей с открытым исходным кодом мы создали обучающий корпус в полностью автоматическом режиме для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4.6% в правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны по адресу https://multimodal-documents.github.io."

LLaMo: Large Language Model-based Molecular Graph Assistant

Большие языковые модели (LLMs) продемонстрировали выдающиеся способности к обобщению и выполнению инструкций благодаря настройке на инструкции. Прогресс в области LLM и настройки на инструкции привел к развитию Больших моделей языка и зрения (LVLMs). Однако возможности LLM и настройки на инструкции были менее изучены в молекулярной области. Поэтому мы предлагаем LLaMo: ассистент молекулярных графов на основе большой языковой модели, который представляет собой обученную от начала до конца большую молекулярную графо-языковую модель. Для сближения различий между языковыми и графовыми модальностями мы представляем многоуровневый графовый проектор, который преобразует представления графов в токены графов, абстрагируя выходные представления каждого слоя GNN и мотивные представления с помощью механизма перекрестного внимания. Мы также вводим данные инструкций для молекулярных графов, генерируемые машинами, для настройки большой молекулярной графо-языковой модели для общего понимания молекул и языка. Наши обширные эксперименты показывают, что LLaMo демонстрирует наилучшие результаты на разнообразных задачах, таких как генерация описания молекул, прогнозирование свойств и предсказание названий по ИЮПАК. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

visiongnnllm

Повышение качества генерации изображений с помощью In-Context LoRA для Diffusion Transformers

Недавнее исследование arXiv:2410.15027 исследовало использование диффузионных трансформеров (DiTs) для генерации изображений, не зависящей от задачи, путем простого объединения токенов внимания между изображениями. Однако, несмотря на значительные вычислительные ресурсы, качество генерируемых изображений остается неоптимальным. В данном исследовании мы переоцениваем и оптимизируем эту систему, предполагая, что текстово-изображающие DiTs изначально обладают способностями к контекстно-зависимой генерации, требуя лишь минимальной настройки для их активации. Через разнообразные эксперименты с задачами мы качественно демонстрируем, что существующие текстово-изображающие DiTs могут эффективно выполнять контекстно-зависимую генерацию без какой-либо настройки. Основываясь на этом понимании, мы предлагаем удивительно простой конвейер для использования контекстных способностей DiTs: (1) объединять изображения вместо токенов, (2) проводить совместное описание нескольких изображений и (3) применять специфическую для задачи настройку LoRA с использованием небольших наборов данных (например, 20 символов, 100 образцов) вместо полной настройки параметров с большими наборами данных. Мы назвали наши модели In-Context LoRA (IC-LoRA). Этот подход не требует изменений в оригинальных моделях DiT, только изменения в обучающих данных. Удивительно, но наш конвейер генерирует наборы изображений высокого качества, которые лучше соответствуют запросам. Хотя он специфичен для задач в плане настройки данных, наша система остается не зависящей от задач в архитектуре и конвейере, предоставляя мощный инструмент для сообщества и предлагая ценные выводы для дальнейших исследований в области систем генерации, не зависящих от задач на уровне продукта. Мы публикуем наш код, данные и модели по адресу https://github.com/ali-vilab/In-Context-LoRA.

SelfCodeAlign: Само-aligning для генерации кода

Перевод текста на русский: "Настройка инструкций — это метод тонкой настройки под контролем, который значительно улучшает способность больших языковых моделей (LLM) следовать инструкциям человека. Мы предлагаем SelfCodeAlign, первую полностью прозрачную и разрешительную схему для само-согласования кодовых LLM без обширных человеческих аннотаций или дистилляции. SelfCodeAlign использует ту же базовую модель для вывода на протяжении всего процесса генерации данных. Сначала она извлекает разнообразные кодовые концепции из высококачественных исходных фрагментов для генерации новых задач. Затем она генерирует несколько ответов на каждую задачу, сопоставляет каждый ответ с тестовыми случаями и проверяет их в песочнице. Наконец, выбираются примеры, прошедшие проверку, для настройки инструкций. В наших основных экспериментах мы используем SelfCodeAlign с CodeQwen1.5-7B для создания набора данных из 74 тысяч пар инструкций-ответов. Тонкая настройка на этом наборе данных приводит к модели, которая достигает 67.1 pass@1 на HumanEval+, превосходя CodeLlama-70B-Instruct, несмотря на то, что она в десять раз меньше. Во всех тестах эта модель последовательно превосходит оригинальную версию, обученную с использованием OctoPack, предыдущий метод наилучшего уровня для настройки инструкций без человеческих аннотаций или дистилляции. Кроме того, мы показываем, что SelfCodeAlign эффективен для LLM различных размеров, от 3B до 33B, и что базовые модели могут больше выиграть от согласования с их собственным распределением данных. Мы также проверяем эффективность каждого компонента в нашей схеме, показывая, что SelfCodeAlign превосходит как прямую дистилляцию из GPT-4o, так и ведущие методы дистилляции на основе GPT-3.5, такие как OSS-Instruct и Evol-Instruct. SelfCodeAlign также привел к созданию StarCoder2-Instruct, первой полностью прозрачной, разрешительно лицензированной и само-согласованной кодовой LLM, которая достигает передовых результатов в программировании."