Ай Дайджест - категория entropy

M AX I NFO RL: Усовершенствование Исследования в Обучении с Подкреплением через Максимизацию Информационного Прибыли

Алгоритмы обучения с подкреплением (RL) стремятся сбалансировать использование текущей наилучшей стратегии с изучением новых вариантов, которые могут привести к более высоким вознаграждениям. Наиболее распространенные алгоритмы RL используют ненаправленное исследование, т.е. выбирают случайные последовательности действий. Исследование также может быть направленным с использованием внутренних вознаграждений, таких как любопытство или эпистемическая неопределенность модели. Однако эффективно сбалансировать задачи и внутренние вознаграждения сложно и часто зависит от конкретной задачи. В этой работе мы представляем рамки MaxInfoRL для балансировки внутреннего и внешнего исследования. MaxInfoRL нацеливает исследование на информативные переходы, максимизируя внутренние вознаграждения, такие как информационный прирост о базовой задаче. В сочетании с исследованием Больцмана этот подход естественным образом уравновешивает максимизацию функции ценности с максимизацией энтропии по состояниям, вознаграждениям и действиям. Мы показываем, что наш подход достигает подпорогового сожаления в упрощенной обстановке многоруких бандитов. Затем мы применяем эту общую формулировку к различным методам RL без политики для непрерывных пространств состояния-действия, что приводит к новым алгоритмам, которые достигают превосходной производительности в сложных задачах исследования и сложных сценариях, таких как задачи визуального управления.

2024-12-17rewards entropy exploration

Самопроверка длины: политика динамической длины для спекулятивного декодирования

Спекулятивное декодирование (SD) стало важной техникой для ускорения скорости вывода больших языковых моделей. Традиционные методы SD используют фиксированную длину эскиза, что игнорирует сложность генерации токенов в различных задачах. В результате в данной статье мы рассматриваем эту проблему и представляем SVIP - политику динамической длины эскиза, осознающую сложность, для систем спекулятивного декодирования. Основываясь на теоретической нижней границе коэффициента приемлемости токенов эскиза и его приближения во времени вывода, SVIP адаптивно определяет длину эскизных последовательностей на основе энтропии распределения каждого токена эскиза. Экспериментальные результаты на основных эталонах и рамках SD демонстрируют превосходную производительность SVIP, достигая ускорения времени выполнения до 20% на SpecBench по сравнению с базовыми методами SD и 60% ускорения на MT-Bench для генерации длинных форм до 8K токенов. Более того, SVIP полностью не требует обучения и совместим с любыми существующими методами SD, которые генерируют токены эскиза авто-регрессивно. Экспериментальные результаты также показывают, что SVIP обеспечивает постоянное улучшение времени выполнения на основе GliDe & CaPE и EAGLE-2.

2024-11-28decoding inference entropy

Анализ языка визуальных токенов

С введением моделей на базе трансформеров для задач обработки изображений и языка, таких как LLaVA и Chameleon, возобновился интерес к дискретному токенизированному представлению изображений. Эти модели часто обрабатывают фрагменты изображений как дискретные токены, аналогично словам в естественном языке, обучаясь совместным соответствиям между визуальным и человеческим языками. Однако мало что известно о статистическом поведении этих визуальных языков - следуют ли они похожим распределениям частот, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки следуют распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и более низкой степени сжатия, при этом токены в основном представляют части объектов, что указывает на промежуточную гранулярность. Также мы демонстрируем, что визуальные языки лишены сплоченных грамматических структур, что приводит к более высокой перплексии и слабой иерархической организации по сравнению с естественными языками. В заключение, мы показываем, что, хотя модели обработки изображений ближе по своим характеристикам к естественным языкам, чем другие модели, это сближение все же значительно слабее, чем сплоченность, наблюдаемая в естественных языках. Через эти эксперименты мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может информировать разработку более эффективных моделей компьютерного зрения.

2024-11-08perplexity alignment tokenization

Минимальное Энтропийное Сопряжение с Боттлнечком (MEC-B): Новый Подход к Потерям в Сжатии

В данной статье исследуется новая структура сжатия с потерями, работающая при логарифмических потерях, разработанная для обработки ситуаций, когда распределение восстановления отличается от исходного распределения. Эта структура особенно актуальна для приложений, требующих совместного сжатия и извлечения данных, а также в сценариях, связанных с изменениями распределения из-за обработки. Мы показываем, что предложенная формулировка расширяет классическую структуру минимальной энтропии связи за счет интеграции "узкого места", что позволяет контролировать степень стохастичности в связи. Мы исследуем разложение Минимальной Энтропии Связи с "узким местом" (MEC-B) на две отдельные задачи оптимизации: Максимизация Информации с Ограниченной Энтропией (EBIM) для кодера и Минимальная Энтропия Связи (MEC) для декодера. В ходе обширного анализа мы предлагаем жадный алгоритм для EBIM с гарантированными характеристиками производительности и описываем оптимальное решение вблизи функциональных отображений, что дает значительные теоретические инсайты в структурную сложность этой задачи. Более того, мы демонстрируем практическое применение MEC-B через эксперименты в играх с марковским кодированием (MCGs) при ограничениях на скорость передачи. Эти игры симулируют сценарий общения в рамках марковского процесса принятия решений, где агент должен передать сжатое сообщение от отправителя получателю через свои действия. Наши эксперименты выявляют компромиссы между вознаграждениями MDP и точностью получателя на различных скоростях сжатия, демонстрируя эффективность нашего метода по сравнению с традиционными базовыми методами сжатия.

2024-11-01encoder bottleneck stochasticity