Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "density"

Нормализующие потоки как мощные генеративные модели

Нормализующие потоки (NFs) являются моделями, основанными на вероятности, для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в оценке плотности, так и в задачах генеративного моделирования, но в последние годы получили относительно мало внимания. В этой работе мы демонстрируем, что NFs более мощные, чем считалось ранее. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант автогрессивных потоков с маскированием (MAFs), основанный на Transformer: он состоит из стека автогрессивных трансформерных блоков на изображениях, чередующих направление автогрессии между слоями. TarFlow легко обучать от начала до конца и он способен напрямую моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества образцов: увеличение гауссовского шума во время обучения, посттренировочную процедуру денойзинга и эффективный метод управления как для условий класса, так и для безусловных настроек. Совместив это, TarFlow устанавливает новые современные результаты в оценке вероятности для изображений, опережая предыдущие лучшие методы на значительную величину, и генерирует образцы с качеством и разнообразием, сопоставимыми с диффузионными моделями, впервые с помощью самостоятельной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

Плотность ёмкости: Новый подход к оценке больших языковых моделей

Большие языковые модели (LLM) стали важным этапом в области искусственного интеллекта, и их производительность может увеличиваться с ростом размера модели. Однако это масштабирование приносит большие проблемы для эффективности обучения и выводов, особенно для развертывания LLM в условиях ограниченных ресурсов, и тенденция к масштабированию становится все более неустойчивой. Эта статья вводит концепцию "плотности емкости" как новую метрику для оценки качества LLM на различных масштабах и описывает тенденции LLM с точки зрения как эффективности, так и результативности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования, чтобы предсказать производительность этих эталонных моделей в зависимости от их размера параметров. Затем мы определяем эффективный размер параметров целевой LLM как размер параметров, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметров к фактическому размеру параметров целевой LLM. Плотность емкости предоставляет унифицированную структуру для оценки как эффективности, так и результативности моделей. Наш дальнейший анализ недавно открытых базовых LLM показывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет с течением времени. Более конкретно, используя некоторые широко используемые эталоны для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность повышения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.