Ай Дайджест - категория paradigm

Обучение больших языковых моделей для рассуждений в непрерывном латентном пространстве

Большие языковые модели (LLM) ограничены в рассуждениях в "языковом пространстве", где они обычно выражают процесс рассуждения с помощью цепочки мыслей (CoT) для решения сложной задачи рассуждения. Однако мы утверждаем, что языковое пространство может не всегда быть оптимальным для рассуждений. Например, большинство словесных токенов в первую очередь предназначены для текстовой логики и не являются необходимыми для рассуждения, в то время как некоторые критически важные токены требуют сложного планирования и представляют собой огромные проблемы для LLM. Чтобы исследовать потенциал рассуждений LLM в неограниченном скрытом пространстве вместо использования естественного языка, мы представляем новую парадигму Кокос (Цепочка Непрерывной Мысли). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывной мыслью"). Вместо того чтобы декодировать это в словесный токен, мы возвращаем его обратно в LLM в качестве последующего вложения ввода непосредственно в непрерывном пространстве. Эксперименты показывают, что Кокос может эффективно дополнять LLM в нескольких задачах рассуждения. Эта новая парадигма скрытого рассуждения приводит к возникновению продвинутых паттернов рассуждения: непрерывная мысль может кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо того чтобы преждевременно фиксироваться на одном детерминированном пути, как это делается в CoT. Кокос превосходит CoT в определенных задачах логического рассуждения, которые требуют значительного возврата во время планирования, с меньшим количеством токенов мыслей во время вывода. Эти результаты демонстрируют перспективность скрытого рассуждения и предлагают ценные идеи для будущих исследований.

2024-12-10latent reasoning tokens

O1-CODER: Новый Подход к Кодированию с Использованием RL и MCTS

Технический отчет представляет O1-CODER, попытку воспроизвести модель o1 OpenAI с акцентом на задачи кодирования. Он интегрирует обучение с подкреплением (RL) и Монте-Карло дерево решений (MCTS) для улучшения способностей мышления модели системы-2. В рамках включает обучение Генератора Тестовых Случаев (TCG) для стандартизированного тестирования кода, используя MCTS для генерации данных кода с процессами рассуждения, и итеративную донастройку модели политики, чтобы первоначально создавать псевдокод, за которым следует генерация полного кода. Отчет также рассматривает возможности и вызовы в развертывании моделей, подобных o1, в реальных приложениях, предлагая переход на парадигму системы-2 и подчеркивая необходимость обновления состояния среды. Обновленный прогресс модели и экспериментальные результаты будут представлены в следующих версиях. Весь исходный код, курируемые наборы данных, а также полученные модели будут раскрыты на https://github.com/ADaM-BJTU/O1-CODER.

2024-12-03learning reinforcement model

Переосмысление сокращения токенов в MLLMs: К единому подходу для ускорения без обучения

Для ускорения инференса сложных мультимодальных крупных языковых моделей (MLLMs) данное исследование переосмысливает текущий ландшафт исследований по сокращению токенов без обучения. Мы с сожалением отмечаем, что ключевые компоненты существующих методов тесно переплетены, и их взаимосвязи и эффекты остаются неясными для сравнения, переноса и расширения. Поэтому мы предлагаем унифицированный подход "фильтровать-связывать-сжимать", который разделяет процесс сокращения токенов на три отдельные стадии в рамках конвейера, сохраняя при этом последовательные цели и элементы дизайна, но позволяя уникальные реализации. Кроме того, мы объясняем популярные работы и включаем их в наш подход, чтобы продемонстрировать его универсальность. Наконец, мы предлагаем набор методов, основанных на этом подходе, которые находят баланс между скоростью и точностью на разных этапах инференса. Результаты экспериментов на 10 бенчмарках показывают, что наши методы могут достигать сокращения FLOPs до 82.4% с минимальным влиянием на производительность, одновременно превосходя современные методы без обучения. Страница нашего проекта находится по адресу https://ficoco-accelerate.github.io/.

2024-11-27inference benchmarks reduction

Создание Композиционных Сцен через Генерацию Экземпляров RGBA с Текстом в Изображение

Модели генерации изображений на основе текстов с использованием диффузии могут создавать изображения высокого качества, однако это требует утомительной настройки запросов. Улучшить управляемость можно путем введения условий компоновки, однако существующие методы не обладают возможностью редактирования компоновки и точного контроля над атрибутами объектов. Концепция многослойной генерации имеет большой потенциал для решения этих ограничений, однако одновременная генерация изображений вместе с композицией сцены ограничивает контроль над детализированными атрибутами объектов, их относительным положением в 3D пространстве и способностями к манипулированию сценой. В данной работе мы предлагаем новый многоэтапный парадигм генерации, который предназначен для точного контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров, мы разрабатываем новый тренировочный парадигм для адаптации модели диффузии к генерации изолированных компонентов сцены в виде RGBA изображений с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и вводим процесс многослойной композиции, который плавно собирает компоненты в реалистичные сцены. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями на основе сложных запросов с точным контролем над внешним видом и местоположением объектов, предоставляя более высокую степень контроля по сравнению с конкурирующими методами.

2024-11-21generative composition training

Поиск, проверка и обратная связь: К следующему поколению пост-тренировочного парадигма фундаментальных моделей через инженерию верификаторов

Эволюция машинного обучения все чаще акцентируется на разработке мощных моделей и более масштабируемых сигналов надзора. Однако, появление фундаментальных моделей вызывает значительные трудности в предоставлении эффективных сигналов надзора, необходимых для дальнейшего улучшения их возможностей. В результате, возникает срочная необходимость исследовать новые сигналы надзора и технические подходы. В данной статье мы предлагаем концепцию инженерии верификаторов — новый парадигм постобучения, специально разработанный для эпохи фундаментальных моделей. Основой инженерии верификаторов является использование набора автоматизированных верификаторов для выполнения задач проверки и предоставления значимой обратной связи фундаментальным моделям. Мы систематически классифицируем процесс инженерии верификаторов на три ключевых этапа: поиск, проверка и обратная связь, а также предоставляем всесторонний обзор последних научных достижений на каждом из этих этапов. Мы считаем, что инженерия верификаторов представляет собой фундаментальный путь к достижению искусственного общего интеллекта.

2024-11-19training supervision intelligence