Ай Дайджест - категория computation

R,ULE,A,RENA: Оценка способности LLM в следовании правилам в реальных сценариях

В данной статье представлен RuleArena, новый и сложный ориентир, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам из реальной жизни в рассуждениях. Охватывая три практические области — сборы за багаж авиакомпаний, сделки НБА и налоговое законодательство — RuleArena оценивает мастерство LLM в обработке сложных инструкций на естественном языке, требующих понимания длинного контекста, логического рассуждения и точных математических расчетов. Две ключевые особенности отличают RuleArena от традиционных ориентиров на основе правил: (1) он выходит за пределы стандартных представлений логики первого порядка и (2) он основан на подлинных практических сценариях, предоставляя информацию о пригодности и надежности LLM для применения в реальных условиях. Наши результаты выявляют несколько заметных ограничений в LLM: (1) они испытывают трудности с идентификацией и применением соответствующих правил, часто путаясь в схожих, но различных регламентах, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом, они демонстрируют плохие результаты в тестировании. Эти результаты подчеркивают значительные проблемы в развитии возможностей рассуждения LLM на основе правил в реальных приложениях.

2024-12-13language computation instructions

HARP: Улучшение производительности языковых моделей с помощью осведомленности о колебаниях и переосмысления

Эта работа нацелена на улучшение производительности больших языковых моделей, устраняя переменные вычислительные требования на этапах вывода, где некоторые токены требуют больше вычислительных ресурсов, чем другие. Мы представляем HARP — простую модификацию прямого прохода трансформеров "с полки". Опираясь на колебания и эффект кадрирования в процессе принятия решений, HARP избирательно применяет дополнительные вычисления, когда модель сталкивается с неопределенностью во время генерации токенов. Наш метод имитирует когнитивные процессы человека, приостанавливаясь в сложные моменты принятия решений и переформулируя ввод для получения другой перспективы. В отличие от других подходов, HARP является независимым от модели, не требует обучения и прост в реализации. Мы тщательно оцениваем наш метод по различным конечным задачам и размерам моделей, демонстрируя улучшения производительности до +5,16%. Примечательно, что HARP достигает этих успехов, сохраняя время вывода в два раза быстрее, чем метод «лестницы». Простой и в то же время приносящий значительные преимущества, HARP предлагает практическое решение для повышения производительности языковых моделей на основе трансформеров с минимальным вычислительным влиянием.

2024-12-11transformers computation inference

Масштабирование поиска во время вывода с помощью модели Vision Value для улучшения визуального восприятия

Несмотря на значительные достижения в области моделей визуального языка (VLM), отсутствуют эффективные подходы для повышения качества ответов за счет масштабирования вычислений во время вывода. Эта способность известна как ключевой шаг к самоусовершенствующимся моделям в недавних исследованиях больших языковых моделей. В этой статье мы представляем модель Vision Value Model (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. В частности, VisVM не только оценивает качество сгенерированного предложения на текущем шаге поиска, но и предсказывает качество последующих предложений, которые могут возникнуть из текущего шага, тем самым предоставляя долгосрочную ценность. Таким образом, VisVM отвлекает VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск с помощью VisVM значительно усиливает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций по сравнению с жадным декодированием и поисковыми методами с другими визуальными сигналами вознаграждения. Кроме того, мы обнаружили, что самообучение модели с помощью подписи, направляемой VisVM, улучшает производительность VLM по множеству мультимодальных бенчмарков, что указывает на потенциал разработки самоусовершенствующихся VLM. Наша модель ценности и код доступны по адресу https://github.com/si0wang/VisVM.

2024-12-06vlms inference self-training

Адаптивный Инференс Мульти-Модальных LLM через Слияние и Обрезку Токенов

Большие языковые модели (LLM) позволили создать мультимодальные LLM, которые демонстрируют высокое понимание визуальных данных, таких как изображения и видео. Однако эти модели обычно полагаются на обширные визуальные токены от визуальных кодировщиков, что приводит к высоким вычислительным требованиям, что ограничивает их применимость в условиях ограниченных ресурсов и для задач с длинным контекстом. В этой работе мы предлагаем метод адаптивного вывода без обучения для мультимодальных LLM, который может удовлетворять широкому диапазону требований по эффективности с минимальным падением производительности. Наш метод состоит из a) итеративного объединения токенов на основе сходства встраиваний перед LLM и b) прогрессивного отсечения токенов внутри слоев LLM на основе мультимодальной важности. С минималистичным дизайном наш метод может быть применен как к видео-, так и к изображениям LLM. Обширные эксперименты на различных бенчмарках видео и изображений показывают, что наш метод значительно снижает вычислительную нагрузку (например, 7-кратное снижение FLOPs), сохраняя производительность видео и изображений LLM. Кроме того, при аналогичных вычислительных затратах наш метод превосходит современные методы в понимании длинного видео (например, +4,6 на MLVU). Кроме того, наш углубленный анализ предоставляет понимание избыточности токенов и поведения слоев LLM, предлагая руководство для будущих исследований в проектировании эффективных мультимодальных LLM. Наш код будет доступен по адресу https://github.com/LaVi-Lab/AIM.

2024-12-04pruning computation tokens

Балансировка параллелизма конвейера с параллелизмом словаря

Параллелизм конвейера широко используется для масштабирования обучения крупных языковых моделей на базе трансформеров; различные работы были проведены для улучшения его пропускной способности и объема памяти. В данной статье мы рассматриваем часто упускаемую из виду проблему: слои словаря могут вызывать несбалансированное использование вычислительных ресурсов и памяти на различных этапах конвейера, что усугубляет проблемы с "пузырями" конвейера и узкими местами памяти. Чтобы решить эту проблему, мы равномерно распределяем слои словаря по устройствам конвейера и группируем вычисления в проходы конвейера. Для уменьшения накладных расходов на память активации мы предлагаем несколько алгоритмов для снижения барьеров коммуникации внутри слоев словаря. Кроме того, мы используем обобщенный метод для интеграции параллелизма словаря с существующими расписаниями конвейера. Сочетая эти методы, наши подходы эффективно балансируют вычисления и память параметров с небольшим постоянным накладным расходом на память активации. Особо следует отметить, что при сочетании с расписаниями, балансирующими память активаций, такими как V-Half, наш подход достигает идеального баланса как по памяти, так и по вычислениям. Обширные оценки показывают, что наш метод обеспечивает баланс вычислений и памяти независимо от размера словаря, что приводит к улучшению пропускной способности на 5% до 51% по сравнению с наивными подходами, одновременно значительно снижая пиковое использование памяти, особенно в сценариях с большим словарём. Наша реализация доступна в открытом доступе по адресу https://github.com/sail-sg/VocabularyParallelism.

2024-11-11memory computation transformer

Эффективное Исполнение Роботизированных Задач с Использованием Моделей Мультимодальных Больших Языковых Моделей (MLLM)

МЛЛМы продемонстрировали замечательные способности к пониманию и рассуждению с использованием сложных языковых и визуальных данных. Эти достижения стимулировали видение создания универсального роботизированного МЛЛМ, способного понимать сложные человеческие инструкции и выполнять различные воплощенные задачи. Однако разработка МЛЛМ для реальных роботов представляет собой вызов из-за обычно ограниченных вычислительных и памяти ресурсов, доступных на робототехнических платформах. В отличие от этого, инференс МЛЛМов требует хранения миллиардов параметров и выполнения огромного количества вычислений, что накладывает значительные требования к аппаратному обеспечению. В нашей статье мы предлагаем Динамическую систему раннего выхода для модели зрения-языка-действия роботов (DeeR-VLA, или просто DeeR), которая автоматически адаптирует размер активированного МЛЛМа в зависимости от текущей ситуации. Подход использует архитектуру с несколькими выходами в МЛЛМ, которая позволяет модели прекратить обработку, как только будет активирована подходящая для конкретной ситуации часть модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разработали новые алгоритмы, которые устанавливают критерии раннего завершения для DeeR, учитывая предопределенные требования, такие как средние вычислительные затраты (т.е. потребление энергии), а также пиковое вычислительное потребление (т.е. задержка) и использование памяти GPU. Эти улучшения обеспечивают эффективную работу DeeR при различных ограничениях ресурсов, при этом сохраняя конкурентоспособную производительность. На тестовой площадке для манипуляций роботов CALVIN DeeR показывает значительное снижение вычислительных затрат ЛЛМ на 5.2-6.5 раз и памяти GPU ЛЛМ на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны по адресу https://github.com/yueyang130/DeeR-VLA.

2024-11-06vision benchmark language