Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "prompting"

Превышение примеров: Высокоуровневая автоматизированная парадигма рассуждений в контексте обучения с использованием MCTS

Обучение в контексте (ICL) позволяет крупным языковым моделям (LLMs) справляться с последующими задачами с помощью сложного запроса и качественных демонстраций. Однако эта традиционная парадигма ICL демонстрирует ограничения при выполнении сложных математических задач, что в основном связано с ее сильной зависимостью от качества примеров и необходимостью вмешательства человека в сложных сценариях. Для решения этих ограничений в данной статье представлена HiAR-ICL, парадигма высокого уровня автоматизированного вывода в ICL, которая переносит акцент с конкретных примеров на абстрактные мыслительные паттерны, расширяя традиционное понятие контекста в ICL. HiAR-ICL вводит пять атомарных логических действий в качестве основных компонентов для построения цепочечных структур. Используя алгоритм поиска по дереву Монте-Карло, мы исследуем логические пути и создаем мыслительные карты для дальнейшего руководства выводами. Затем мы разрабатываем структуру когнитивной сложности, которая динамически сопоставляет задачи с соответствующими мыслительными картами. Экспериментальные результаты демонстрируют эффективность HiAR-ICL, достигая передового уровня точности (79,6%) на контрольном наборе MATH с Qwen2.5-7B-Instruct, превосходя GPT-4o (76,6%) и Claude 3.5 (71,1%).

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

Объединённый поиск: Создание доступных адаптаций LLM для языков с ограниченными ресурсами

Большие языковые модели (LLMs) показывают низкие результаты на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает данные из Common Crawl с использованием минимальных вычислительных ресурсов, что позволяет получить монолингвальные наборы данных значительно большего объема, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для дообучения многоязычных LLM с помощью эффективных адаптерных методов (QLoRA) значительно улучшает производительность на языках с ограниченными ресурсами, при этом минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение перплексии языковой модели и увеличение баллов при использовании few-shot подходов. Наша работа и выпущенный исходный код предоставляют доступный способ улучшения LLM для языков с ограниченными ресурсами с использованием потребительского оборудования. Исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.

Обзор метода RAG: Регионально-осведомленная генерация изображений из текста

В данной статье мы представляем RAG, метод генерации изображений по тексту с учетом региональных описаний для точного компоновки макета. Региональное подсказывание или композитная генерация, позволяющая точный пространственный контроль, привлекает все больше внимания благодаря своей практичности в реальных приложениях. Однако, предыдущие методы либо вводят дополнительные обучаемые модули, что ограничивает их применение только к определенным моделям, либо манипулируют картами оценок внутри слоев перекрестного внимания с помощью масок внимания, что приводит к ограниченной силе контроля при увеличении числа регионов. Чтобы справиться с этими ограничениями, мы разделяем процесс многорегиональной генерации на две подзадачи: создание отдельных регионов (Региональная Жесткая Привязка), что гарантирует правильное выполнение регионального запроса, и общую детальную доработку (Региональная Мягкая Доработка) регионов, которая игнорирует визуальные границы и усиливает взаимодействие между соседними регионами. Более того, RAG новаторски делает возможным перерисовку, где пользователи могут изменять конкретные неудовлетворительные регионы предыдущей генерации, оставляя все остальные регионы неизменными, без необходимости использовать дополнительные модели для дорисовки. Наш подход не требует настройки и может быть применен к другим системам как улучшение следования запросу. Количественные и качественные эксперименты показывают, что RAG превосходит предыдущие методы без настройки по привязке атрибутов и отношениям объектов.

Эксперименты с Run-Time Стратегиями для Медицинских Задач и Дальше

Стратегии управления во время выполнения, такие как Medprompt, ценны для направления больших языковых моделей (LLM) к достижению наивысших результатов на сложных задачах. Medprompt демонстрирует, что общая LLM может быть настроена на достижение передовых результатов в специализированных областях, таких как медицина, с использованием запроса для вызова стратегии выполнения, включающей цепочку рассуждений и ансамблевое обучение. Модель o1-preview от OpenAI представляет собой новый подход, где модель разработана для выполнения рассуждений во время выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение o1-preview на разнообразном наборе медицинских задач и бенчмарков. Следуя исследованию Medprompt с использованием GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Отмечено, что даже без техник подсказок, o1-preview значительно превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, как это представлено в Medprompt, в новом парадигме моделей с рассуждениями. Мы обнаружили, что методы подсказок на основе нескольких примеров (few-shot prompting) снижают производительность o1, что предполагает, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей, изначально предназначенных для рассуждений. Хотя ансамблевый метод остается жизнеспособным, он требует значительных ресурсов и тщательной оптимизации соотношения стоимости и производительности. Наш анализ стоимости и точности по стратегиям выполнения выявляет границу Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов, но при более высокой стоимости. Хотя o1-preview предлагает наивысшую производительность, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет свою ценность в определенных контекстах. Кроме того, мы отмечаем, что модель o1-preview достигла почти насыщения на многих существующих медицинских бенчмарках, что подчеркивает необходимость новых, сложных бенчмарков. Мы заканчиваем размышлениями о общих направлениях для вычислений во время вывода с использованием LLM.

Введение

Мы представляем технологию "Мульти-экспертное Стимулирование", новое улучшение метода ExpertPrompting (Xu и соавт., 2023), разработанное для улучшения генерации больших языковых моделей (LLM). В частности, она направляет LLM на выполнение входной инструкции путем имитации нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в одной цепочке рассуждений через наши семь тщательно разработанных подзадач, основанных на Методе Номинальной Группы (Ven и Delbecq, 1974), хорошо зарекомендовавшей себя структуре принятия решений. Наши оценки показывают, что Мульти-экспертное Стимулирование значительно превосходит ExpertPrompting и сопоставимые базовые модели в улучшении правдивости, фактичности, информативности и полезности ответов, одновременно снижая токсичность и обидность. Оно также достигает рекордной правдивости, превосходя лучший базовый показатель на 8.69% с использованием ChatGPT. Мульти-экспертное Стимулирование является эффективным, объяснимым и легко адаптируемым к различным сценариям, исключая необходимость ручного создания стимулов.