Эффективные политики диффузии с помощью смеси экспертов для многозадачного обучения
Политики диффузии стали широко использоваться в обучении подражанию, предлагая несколько привлекательных свойств, таких как генерация многомодального и разрывного поведения. Поскольку модели становятся больше, чтобы захватить более сложные возможности, их вычислительные требования увеличиваются, как показано недавними законами масштабирования. Поэтому продолжение работы с текущими архитектурами будет представлять собой вычислительное ограничение. Для решения этой проблемы мы предлагаем смесь экспертов по денойзингу (MoDE) в качестве новой политики для обучения подражанию. MoDE превосходит современные высококлассные политики диффузии на основе трансформеров, обеспечивая при этом эффективное масштабирование параметров за счет разреженных экспертов и маршрутизации, условной от шума, снижая как активные параметры на 40%, так и затраты на вывод на 90% за счет кэширования экспертов. Наша архитектура сочетает это эффективное масштабирование с механизмом самовнимания, условным от шума, что позволяет более эффективно проводить денойзинг на разных уровнях шума. MoDE достигает выдающейся производительности по 134 задачам в четырех известных бенчмарках по обучению подражанию (CALVIN и LIBERO). Примечательно, что, предварительно обучив MoDE на разнообразных данных о робототехнике, мы достигаем 4.01 на CALVIN ABC и 0.95 на LIBERO-90. Он превосходит как политики диффузии на основе CNN, так и трансформеров в среднем на 57% по 4 бенчмаркам, используя при этом на 90% меньше FLOPs и меньше активных параметров по сравнению с архитектурами диффузионных трансформеров по умолчанию. Кроме того, мы проводим комплексные анализы компонентов MoDE, предоставляя полезные сведения для проектирования эффективных и масштабируемых архитектур трансформеров для политик диффузии. Код и демонстрации доступны по адресу https://mbreuss.github.io/MoDE_Diffusion_Policy/.