Ай Дайджест - категория decoding

Эмердженция абстракций: механизм кодирования и декодирования концептов для обучения в контексте в трансформерах

Люди дистиллируют сложные переживания в основные абстракции, которые позволяют быстрому обучению и адаптации. Аналогично, авторегрессивные трансформеры демонстрируют адаптивное обучение через обучение в контексте (ICL), что ставит вопрос о том, как. В этой статье мы предлагаем механизм кодирования-декодирования концепций, чтобы объяснить ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения малого трансформера и сообщаем о сопутствующем возникновении кодирования и декодирования концепций. Поскольку модель учится кодировать разные латентные концепции (например, "Поиск первого существительного в предложении.") в разные, отделимые представления, она одновременно строит условные алгоритмы декодирования и улучшает свою производительность ICL. Мы подтверждаем наличие этого механизма на предобученных моделях различного масштаба (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Далее, через механистические интервенции и контролируемую тонкую настройку, мы демонстрируем, что качество кодирования концепции причинно связано и предсказуемо для производительности ICL. Наши эмпирические выводы проливают свет на лучшее понимание успеха и режима неудач больших языковых моделей через их представления.

2024-12-18abstraction encoding representation

Когда говорить, когда воздерживаться: Контрастное декодирование с воздержанием

Большие языковые модели (LLM) демонстрируют исключительную производительность по различным задачам, используя как предобученные знания (т.е. параметрические знания), так и внешние знания (т.е. контекстуальные знания). Хотя было предпринято значительное количество усилий для использования обоих видов знаний, сценарии, в которых модель не обладает соответствующими знаниями, остаются недостаточно исследованными. Такие ограничения могут вызывать проблемы, такие как галлюцинации, что приводит к снижению надежности и потенциальным рискам в ситуациях с высокой ставкой. Чтобы устранить такие ограничения, эта статья расширяет область задач, охватывая случаи, когда запрос пользователя не может быть выполнен из-за отсутствия соответствующих знаний. Для этой цели мы представляем Контрастное Декодирование с Воздержанием (CDA), метод декодирования без обучения, который позволяет LLM генерировать ответы, когда соответствующие знания доступны, и воздерживаться в противном случае. CDA оценивает релевантность каждого знания для данного запроса, адаптивно определяя, какие знания следует приоритизировать или какие полностью игнорировать. Обширные эксперименты с четырьмя LLM на трех наборах данных для вопросов и ответов показывают, что CDA может эффективно выполнять точную генерацию и воздержание одновременно. Эти результаты подчеркивают потенциал CDA для расширения применимости LLM, повышения надежности и сохранения доверия пользователей.

2024-12-18reliability models knowledge

Сжатая цепочка размышлений: эффективное рассуждение через плотные представления

Декодирование с цепочкой размышлений (CoT) позволяет языковым моделям улучшать эффективность рассуждений за счет высокой задержки генерации в декодировании. В недавних предложениях были изучены варианты токенов размышлений, термин, который мы вводим и который относится к специальным токенам, используемым во время вывода, чтобы позволить дополнительным вычислениям. Предыдущие работы рассматривали токены размышлений в виде последовательностей фиксированной длины, взятых из дискретного набора встраиваний. Здесь мы предлагаем Сжатую Цепочку Размышлений (CCoT) — структуру для генерации содержательных и непрерывных токенов размышлений переменной длины. Сгенерированные токены размышлений являются сжатыми представлениями явных цепочек рассуждений, и наш метод может быть применен к стандартным языковым моделям декодеров. В ходе экспериментов мы иллюстрируем, как CCoT позволяет дополнительные рассуждения над плотными содержательными представлениями, чтобы достичь соответствующих улучшений в точности. Более того, улучшения рассуждений могут быть адаптивно модифицированы по запросу путем контроля количества сгенерированных токенов размышлений.

2024-12-18decoding compression accuracy

RetroLLM: Объединение поиска и генерации для больших языковых моделей

Большие языковые модели (LLM) демонстрируют замечательные генеративные способности, но часто страдают от галлюцинаций. Генерация с поддержкой поиска (RAG) предлагает эффективное решение, включая внешний контекст, но существующие методы сталкиваются с несколькими ограничениями: дополнительные затраты на развертывание отдельных извлекательных модулей, избыточные токены ввода из извлеченных текстовых фрагментов и отсутствие совместной оптимизации извлечения и генерации. Чтобы решить эти проблемы, мы предлагаем RetroLLM — единые архитектуры, объединяющие извлечение и генерацию в один последовательный процесс, позволяя LLM непосредственно генерировать детализированные доказательства из корпуса с использованием ограниченного декодирования. Более того, чтобы смягчить ложную обрезку в процессе генерации ограниченных доказательств, мы вводим (1) иерархические ограничения FM-индекса, которые генерируют подсказки, ограниченные корпусом, чтобы определить подмножество релевантных документов перед генерацией доказательств, снижая нерелевантное декодирование; и (2) стратегию ограниченного декодирования, ориентированную на будущее, которая учитывает релевантность будущих последовательностей для повышения точности доказательств. Обширные эксперименты на пяти наборах данных открытых доменов QA демонстрируют превосходные результаты RetroLLM как в задачах в области, так и за ее пределами. Код доступен по адресу https://github.com/sunnynexus/RetroLLM.

2024-12-17generation retrieval hallucinations

StreamChat: Интерактивное взаимодействие с потоковым видео

В данной статье представлен StreamChat — новый подход, который улучшает возможности взаимодействия Больших Мультимодальных Моделей (LMM) с потоковым видео-контентом. В сценариях взаимодействия с потоками существующие методы полагаются исключительно на визуальную информацию, доступную в момент, когда задаётся вопрос, что приводит к значительным задержкам, поскольку модель не осознает последующие изменения в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, гарантируя, что модель использует актуальный видео-контент на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых вводов, обеспечивая при этом эффективность вывода для потоковых взаимодействий. Более того, мы создаем новый плотный датасет инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты демонстрируют, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках для изображений и видео и демонстрирует превосходные возможности в сценариях потокового взаимодействия по сравнению с современными видео LMM.

2024-12-12models streaming context

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

2024-12-11interpretability decoding multi-token

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

2024-12-06prediction parallel framework

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

2024-12-06transformers features parameters

DisCoRD: Переход от Дискретных Токенов к Непрерывному Движению через Ректифицированное Потоковое Декодирование

Движение человека, по своей сути, является непрерывным и динамичным, что представляет собой значительные проблемы для генеративных моделей. Несмотря на их преобладание, дискретные методы квантования, такие как VQ-VAEs, страдают от врожденных ограничений, включая ограниченную выразительность и артефакты шума на уровне кадров. Непрерывные подходы, хотя и создают более плавные и естественные движения, часто терпят неудачи из-за высокой размерности и ограниченных обучающих данных. Чтобы решить этот "несоответствие" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные токены для непрерывного движения через декодирование исправленного потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Используя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает тонкие динамики и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основной архитектурой, наш метод повышает естественность, не жертвуя верностью к условным сигналам. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты укрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по адресу: https://whwjdqls.github.io/discord.github.io/.

2024-12-02decoding discrete motion

Эффективное декодирование в визуальном авто-регрессионном моделировании: концепция Collaborative Decoding

2024-11-28decoding efficiency generalization

Самопроверка длины: политика динамической длины для спекулятивного декодирования

2024-11-28decoding inference entropy

Спекулятивное декодирование для непрерывной автопрогрессивной генерации изображений

Модели генерации изображений с непрерывно-значимой автокорреляцией (AR) продемонстрировали значительное превосходство над своими аналогами, работающими с дискретными токенами, показав высокое качество реконструкции и более высокую точность генерации. Однако вычислительные требования автокорреляционной структуры приводят к значительному увеличению времени вывода. Хотя спекулятивное декодирование показало свою эффективность в ускорении работы крупных языковых моделей (LLM), его адаптация к моделям визуального автокорреляционного типа с непрерывными значениями остается неизученной. В данной работе мы обобщаем алгоритм спекулятивного декодирования с дискретных токенов на непрерывное пространство. Анализируя внутренние свойства распределения выходных данных, мы разрабатываем специальный критерий принятия для распределений диффузии, которые широко используются в таких моделях. Для преодоления несоответствий, возникающих в распределениях выходных данных при спекулятивном декодировании, мы вводим методы выравнивания траектории удаления шума и предварительного заполнения токенов. Кроме того, мы идентифицируем трудно выбираемые распределения в фазе отклонения. Для решения этой проблемы мы предлагаем метод принятия-отклонения с тщательным выбором верхней границы, что позволяет избежать сложных интеграций. Экспериментальные результаты показывают, что наше непрерывное спекулятивное декодирование позволяет достичь впечатляющего ускорения в 2.33 раза на готовых моделях, при этом сохраняя распределение выходных данных. Коды будут доступны по адресу: https://github.com/MarkXCloud/CSpD.

2024-11-20inference reconstruction denoising

Исследование нового метода сэмплинга токенов в языковых моделях: Top-nσ

Большие языковые модели (LLM) обычно используют жадное декодирование или выборку при низкой температуре для задач рассуждения, что отражает воспринимаемый компромисс между разнообразием и точностью. Мы оспариваем эту традицию, вводя метод top-nsigma — новый способ выборки, который работает непосредственно с логитами до применения softmax, используя статистический порог. Наш ключевой вывод заключается в том, что логиты естественным образом разделяются на область с шумом, распределённым по нормальному закону, и отдельную информативную область, что позволяет эффективно фильтровать токены без сложных манипуляций с вероятностями. В отличие от существующих методов (например, top-p, min-p), которые невольно включают больше шумовых токенов при более высоких температурах, top-nsigma сохраняет стабильное пространство выборки независимо от масштабирования температуры. Мы также предоставляем теоретический анализ метода top-nsigma для лучшего понимания его поведения. Обширные экспериментальные результаты на четырех наборах данных, ориентированных на рассуждение, демонстрируют, что наш метод не только превосходит существующие подходы к выборке, но и превышает показатели жадного декодирования, при этом сохраняя стабильную производительность даже при высоких температурах.

2024-11-19sampling threshold filtering

Адаптивное декодирование с помощью оптимизации латентных предпочтений

Во время декодирования языковых моделей известно, что использование более высокой температуры выборки приводит к более креативным ответам, тогда как более низкие температуры дают более фактически точные результаты. Однако такие модели обычно применяются для общих инструкций, которые включают как креативные, так и фактические задачи, используя единую фиксированную температуру для всех примеров и токенов. В данной работе мы представляем Адаптивное Декодирование, слой, добавленный к модели для динамического выбора температуры выборки во время вывода, на уровне токена или примера, для оптимизации производительности. Для обучения его параметров мы вводим Оптимизацию Латентных Предпочтений (LPO), общий подход к обучению дискретных латентных переменных, таких как выбор температуры. Наш метод превосходит все фиксированные температуры декодирования на ряде задач, требующих различных температур, включая UltraFeedback, Креативное Писательство Историй и GSM8K.

2024-11-19inference temperature training