Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Стремление к автоматизации операций сотовых сетей выросло с увеличением сложности этих систем. Несмотря на достижения, полная автономность пока недостижима из-за необходимости человеческого вмешательства для моделирования поведения сети и определения политик для выполнения целевых требований. Цифровые двойники сети (NDTs) показали перспективность в улучшении интеллекта сетей, но успешная реализация этой технологии ограничена архитектурами, специфичными для конкретных случаев использования, что ограничивает ее роль в развитии автономности сети. Необходим более способный сетевой интеллект или "мозг телекоммуникаций", чтобы обеспечить бесшовное, автономное управление сотовой сетью. Большие языковые модели (LLMs) появились как потенциальные инструменты для реализации этой концепции, но сталкиваются с проблемами в моделировании сети, особенно в области логического мышления и обработки разнообразных типов данных. Чтобы преодолеть эти пробелы, мы представляем Hermes — цепочку агентов LLM, которая использует "чертежи" для создания экземпляров NDT через структурированные и объяснимые логические шаги. Hermes позволяет автоматическое, надежное и точное моделирование сети для различных сценариев использования и конфигураций, что знаменует прогресс на пути к полностью автономным операциям сети.

Извлечение Последовательности Действий Пользователя из Записей Экрана с Помощью ВЛМ

Видеозаписи активности пользователей, особенно записи с рабочего стола, представляют собой богатый источник данных для понимания поведения пользователей и автоматизации процессов. Однако, несмотря на прогресс в области моделей видео-языкового взаимодействия (VLMs) и их возрастающее использование в анализе видео, извлечение действий пользователя из записей с рабочего стола остается малоизученной областью. В данной статье мы устраняем этот пробел, предлагая два новых метода на основе VLMs для извлечения действий пользователя: прямой подход на основе кадров (DF), при котором образцы кадров напрямую вводятся в VLMs, и дифференциальный подход на основе кадров (DiffF), который включает в себя явные различия кадров, выявляемые с помощью методов компьютерного зрения. Мы оцениваем эти методы, используя базовый самосоставленный набор данных и продвинутый бенчмарк, адаптированный из предыдущих работ. Наши результаты показывают, что подход DF достигает точности от 70% до 80% в определении действий пользователя, при этом извлеченные последовательности действий могут быть воспроизведены через автоматизацию роботизированных процессов. Мы обнаружили, что хотя VLMs показывают потенциал, включение явных изменений пользовательского интерфейса может ухудшить производительность, что делает подход DF более надежным. Эта работа представляет собой первое применение VLMs для извлечения последовательностей действий пользователя из записей рабочего стола, внося вклад в новые методы, бенчмарки и инсайты для будущих исследований.

Несоответствия в Моделях Консистенции: Лучшее Решение ODE Не Обязательно Улучшает Качество Генерации

Хотя модели диффузии могут генерировать образцы поразительно высокого качества, их ограничивает дорогостоящая итеративная процедура выборки. Модели согласованности (CMs) недавно появились как перспективный метод дистилляции моделей диффузии, снижая стоимость выборки за счет генерации высококачественных образцов всего за несколько итераций. Цель дистилляции моделей согласованности заключается в решении обыкновенного дифференциального уравнения (ОДУ) потока вероятности, определенного существующей моделью диффузии. CMs не обучаются напрямую для минимизации ошибки по отношению к решателю ОДУ, вместо этого они используют более вычислительно эффективную целевую функцию. Чтобы изучить, насколько эффективно CMs решают ОДУ потока вероятности, и как влияет любая вызванная ошибка на качество генерируемых образцов, мы представляем Direct CMs, которые напрямую минимизируют эту ошибку. Интересно, что мы обнаружили, что Direct CMs уменьшают ошибку решения ОДУ по сравнению с CMs, но также приводят к значительно худшему качеству образцов, что ставит под сомнение, почему именно CMs работают так хорошо изначально. Полный код доступен по адресу: https://github.com/layer6ai-labs/direct-cms.

Эффективное использование памяти при обучении больших языковых моделей

По мере того как языковые модели становятся всё больше, растут и их словари. Это привело к непропорциональному увеличению объема памяти, используемого LLMs во время обучения, особенно в одном слое: при вычислении кросс-энтропии в функции потерь. Кросс-энтропия создает матрицу логитов с элементами для каждой пары входных токенов и элементов словаря и, для небольших моделей, потребляет на порядок больше памяти, чем остальная часть LLM вместе взятая. Мы предлагаем метод Cut Cross-Entropy (CCE), который вычисляет потери кросс-энтропии без материализации логитов для всех токенов в глобальной памяти. Вместо этого, CCE вычисляет логит только для правильного токена и оценивает log-sum-exp по всем логитам на лету. Мы реализовали специальное ядро, которое выполняет матричные умножения и редукцию log-sum-exp по словарю во флэш-памяти, делая потребление глобальной памяти для вычислений кросс-энтропии незначительным. Это имеет драматический эффект. Например, в случае модели Gemma 2 (2B), CCE снижает объем памяти, необходимый для вычисления потерь, с 24 ГБ до 1 МБ, а общее потребление памяти при обучении головы классификатора - с 28 ГБ до 1 ГБ. Для улучшения пропускной способности CCE мы используем врожденную разреженность softmax и предлагаем пропускать элементы вычисления градиента, которые имеют пренебрежимо малый вклад в градиент (то есть ниже численной точности). Эксперименты показывают, что драматическое сокращение потребления памяти достигается без ущерба для скорости обучения или сходимости.

LLaMA-Mesh: Объединение Генерации 3D Моделей и Языковых Моделей

Эта работа исследует расширение возможностей крупных языковых моделей (LLMs), предварительно обученных на текстах, для генерации 3D сеток в рамках единой модели. Это предлагает ключевые преимущества: (1) использование пространственных знаний, уже заложенных в LLM, полученных из текстовых источников, таких как 3D руководства, и (2) возможность диалоговой генерации 3D и понимания сеток. Основной вызов заключается в эффективной токенизации данных 3D сеток в дискретные токены, которые LLM могут обрабатывать без проблем. Для решения этой проблемы мы представляем LLaMA-Mesh, новый подход, который представляет координаты вершин и определения граней 3D сеток в виде обычного текста, что позволяет напрямую интегрировать их с LLM без расширения словарного запаса. Мы создаем набор данных для настроенного обучения с учителем (SFT), который позволяет предварительно обученным LLM (1) генерировать 3D сетки из текстовых запросов, (2) производить смешанные текстовые и 3D сеточные выходные данные по требованию и (3) понимать и интерпретировать 3D сетки. Наша работа впервые демонстрирует, что LLM могут быть настроены для приобретения сложных пространственных знаний для генерации 3D сеток в текстовом формате, эффективно объединяя 3D и текстовые модальности. LLaMA-Mesh достигает качества генерации сеток, сравнимого с моделями, обученными с нуля, при этом сохраняя высокую производительность генерации текста.

MagicQuill: Интеллектуальная Интерактивная Система Редактирования Изображений

Обработка изображений включает в себя множество сложных задач и требует эффективных и точных методов манипулирования. В данной статье мы представляем MagicQuill, интегрированную систему редактирования изображений, которая позволяет быстро воплощать творческие идеи. Наша система обладает упрощенным, но функционально мощным интерфейсом, что позволяет выполнять операции редактирования (например, вставку элементов, удаление объектов, изменение цвета) с минимальным вводом данных. Эти взаимодействия отслеживаются многоязыковой крупномасштабной языковой моделью (MLLM), чтобы предугадывать намерения редактирования в реальном времени, избегая необходимости в явном вводе команд. В заключение, мы применяем мощный диффузионный приоритет, улучшенный с помощью тщательно изученного двухветвевого модуля-расширения, для обработки запросов на редактирование с точным контролем. Экспериментальные результаты демонстрируют эффективность MagicQuill в достижении высококачественных изменений изображений. Пожалуйста, посетите https://magic-quill.github.io, чтобы попробовать нашу систему.