Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "prediction"

WHISPER-GPT: Гибридная архитектура для генерации аудио

Мы предлагаем WHISPER-GPT: генеративную большую языковую модель (LLM) для речи и музыки, которая позволяет нам работать с непрерывными аудиорепрезентациями и дискретными токенами одновременно в рамках единой архитектуры. Наблюдается огромный рост генеративных моделей аудио, речи и музыки, которые используют дискретные аудиотокены, полученные из алгоритмов нейронного сжатия, например, ENCODEC. Однако одним из основных недостатков этого подхода является обработка длины контекста. Это увеличивается для высококачественной генеративной архитектуры, если необходимо учитывать все аудиосодержимое на различных частотах для прогнозирования следующего токена. Объединив непрерывную аудиорепрезентацию, такую как спектрограмма, и дискретные акустические токены, мы сохраняем лучшее из обоих миров: у нас есть вся необходимая информация из аудио в конкретный момент времени в одном токене, при этом позволяя LLM предсказывать будущий токен, что позволяет использовать выборку и другие преимущества, которые предоставляет дискретное пространство. Мы показываем, как наша архитектура улучшает перплексию и негативные логарифмические оценки правдоподобия для прогнозирования следующего токена по сравнению с токеном, основанной LLM для речи и музыки.

GenEx: Генерация Исследуемого Мира

Понимание, навигация и исследование 3D физического реального мира на протяжении долгого времени были центральной задачей в развитии искусственного интеллекта. В данной работе мы делаем шаг к этой цели, представляя GenEx, систему, способную планировать сложные исследования воплощенного мира, управляясь своим генеративным воображением, которое формирует приоритеты (ожидания) относительно окружающих сред. GenEx генерирует целую 3D-согласованную воображаемую среду из всего лишь одного RGB-изображения, оживляя ее через панорамные видеопотоки. Используя масштабируемые 3D-данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она захватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая безграничный ландшафт для исследования и взаимодействия с AI-агентами. GenEx достигает высококачественной генерации мира, надежной согласованности в больших траекториях и демонстрирует сильные 3D-способности, такие как согласованность и активное 3D-картирование. Поддерживаемые генеративным воображением мира, агенты с помощью GPT могут выполнять сложные воплощенные задачи, включая как исследования без конкретной цели, так и навигацию с заданной целью. Эти агенты используют предсказательное ожидание относительно невидимых частей физического мира, чтобы уточнить свои убеждения, моделировать различные результаты на основе потенциальных решений и принимать более обоснованные решения. В заключение, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного ИИ в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.

Суперразрешение изображений с помощью инверсии диффузии

Это исследование представляет новую технику суперразрешения изображений (SR), основанную на обратном диффузионном процессе, целью которой является использование богатых предварительно обученных диффузионных моделей для улучшения производительности SR. Мы разрабатываем стратегию частичного предсказания шума для построения промежуточного состояния диффузионной модели, которое служит начальной точкой для выборки. Центральным элементом нашего подхода является глубокий предсказатель шума, который оценивает оптимальные карты шума для прямого диффузионного процесса. После обучения этот предсказатель шума может использоваться для частичной инициализации процесса выборки вдоль траектории диффузии, генерируя желаемый результат с высоким разрешением. По сравнению с существующими подходами, наш метод предлагает гибкий и эффективный механизм выборки, который поддерживает произвольное количество шагов выборки, от одного до пяти. Даже с единственным шагом выборки наш метод демонстрирует превосходную или сопоставимую производительность по сравнению с недавними передовыми методами. Код и модель доступны по адресу https://github.com/zsyOAOA/InvSR.

ZipAR: Ускорение автогрессивной генерации изображений через пространственную локальность

В данной статье мы предлагаем ZipAR, не требующую обучения, легко подключаемую параллельную схему декодирования для ускорения авторегрессионной (AR) визуальной генерации. Мотивация исходит из наблюдения, что изображения демонстрируют локальные структуры, а пространственно удаленные области имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо исходной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, что позволяет реализовать парадигму «предсказание следующего набора». Декодируя несколько токенов одновременно за один прямой проход, число прямых проходов, необходимых для генерации изображения, значительно уменьшается, что приводит к существенному улучшению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество прямых проходов модели до 91% на модели Emu3-Gen, не требуя дополнительного переобучения.

Квантование с низкой битностью благоприятствует недообученным языковым моделям: законы масштабирования для квантованных языковых моделей с 100 триллионами токенов обучения

Мы раскрываем, что квантование с низким битовым разрешением благоприятствует недостаточно обученным большим языковым моделям (LLMs), наблюдая, что модели с большим размером или с меньшим количеством обучающих токенов испытывают меньшую деградацию, вызванную квантованием (QiD), при применении квантования с низким битовым разрешением, тогда как меньшие модели с обширным количеством обучающих токенов страдают от значительной QiD. Чтобы глубже понять эту тенденцию, мы изучили более 1500 квантованных контрольных точек LLM различных размеров и на разных уровнях обучения (недостаточно обученные или полностью обученные) в контролируемой среде, выводя законы масштабирования для понимания взаимосвязи между QiD и такими факторами, как количество обучающих токенов, размер модели и битовая ширина. С использованием полученных законов масштабирования мы предлагаем новую перспективу, согласно которой QiD можно использовать для оценки уровня обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования LLM разных размеров, обученных на 100 триллионах токенов. Наше прогнозирование показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые, как ожидается, будут обучены более чем на 100 триллионах токенов, может быть нежелательной. Это создает потенциальный вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость учета уровня обучения модели при оценке исследований по квантованию с низким битовым разрешением. Для содействия будущим исследованиям по этой проблеме мы публикуем все 1500+ квантованных контрольных точек, использованных в этой работе, на сайте https://huggingface.co/Xu-Ouyang.

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.

Отчет о Результатах Второго Хакатона по Применению LLM в Материаловедении и Химии

Здесь мы представляем результаты второго хакатона по большим языковым моделям (LLM) для применения в науке о материалах и химии, который собрал участников по всему миру в гибридных локациях и привел к 34 заявкам команд. Заявки охватывали семь ключевых областей применения и продемонстрировали разнообразное использование LLM в следующих направлениях: (1) прогнозирование свойств молекул и материалов; (2) дизайн молекул и материалов; (3) автоматизация и новые интерфейсы; (4) научная коммуникация и образование; (5) управление и автоматизация научных данных; (6) генерация и оценка гипотез; и (7) извлечение знаний и рассуждений из научной литературы. Каждая заявка команды представлена в сводной таблице с ссылками на код и краткими статьями в приложении. Помимо результатов команд, мы обсуждаем сам хакатон и его гибридный формат, который включал физические центры в Торонто, Монреале, Сан-Франциско, Берлине, Лозанне и Токио, а также глобальный онлайн-центр для обеспечения местного и виртуального сотрудничества. В целом, мероприятие подчеркнуло значительные улучшения в возможностях LLM с прошлого года, указывая на продолжение расширения применения LLM в исследованиях в области науки о материалах и химии. Эти результаты демонстрируют двойное использование LLM как многоцелевых моделей для разнообразных задач машинного обучения, так и платформ для быстрого прототипирования специализированных приложений в научных исследованиях.

Законы масштабирования: от потерь к потерям

Хотя законы масштабирования предоставляют надежную методологию для прогнозирования потерь обучения на различных вычислительных масштабах для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию для предсказания одной потери на основе другой и применяем её для прогнозирования на различных наборах данных предварительного обучения, а также с данных предварительного обучения на данные задач ниже по потоку. Наши прогнозы хорошо экстраполируются даже при увеличении бюджета на операции на 20 раз по сравнению с наибольшим использованным для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные зависимости между: (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели сопоставляются по вычислительным ресурсам (от обучения к обучению), (2) потерями обучения и тестовыми потерями для одной модели на любом распределении данных ниже по потоку (от обучения к тесту), и (3) тестовыми потерями двух моделей, обученных на двух различных обучающих наборах данных (от теста к тесту). Результаты подтверждаются на предварительных наборах данных, которые существенно различаются (некоторые состоят исключительно из кода, другие не содержат кода вообще) и на различных задачах ниже по потоку. Наконец, мы выяснили, что в некоторых условиях эти сдвинутые степенные зависимости могут давать более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

ClinicalBench: Сравнение LLM и традиционных моделей машинного обучения в клинических прогнозах

Большие языковые модели (LLMs) обладают огромным потенциалом для революционизации текущих клинических систем благодаря своим превосходным способностям в обработке медицинских текстов и сдаче медицинских лицензионных экзаменов. В то же время традиционные модели машинного обучения, такие как SVM и XGBoost, до сих пор в основном используются в задачах клинического прогнозирования. Возникает вопрос: могут ли LLM превзойти традиционные модели машинного обучения в клиническом прогнозировании? Поэтому мы создали новую эталонную платформу ClinicalBench для всестороннего изучения возможностей клинического прогнозирования как универсальных, так и медицинских LLM, и сравнения их с традиционными моделями машинного обучения. ClinicalBench включает три распространенные задачи клинического прогнозирования, две базы данных, 14 универсальных LLM, 8 медицинских LLM и 11 традиционных моделей машинного обучения. В результате обширного эмпирического исследования мы обнаружили, что как универсальные, так и медицинские LLM, даже с различными масштабами моделей, разнообразными подходами к подсказкам или тонкой настройке, пока не могут превзойти традиционные модели машинного обучения в клиническом прогнозировании, что указывает на их возможное недостаточное развитие в области клинического мышления и принятия решений. Мы призываем к осторожности при использовании LLM в клинических приложениях. ClinicalBench может быть использована для сокращения разрыва между разработкой LLM для здравоохранения и реальной клинической практикой.

Улучшение выявления технических долгов в исходном коде Java с помощью обогащенного набора данных

Технический долг (TD) — это термин, используемый для описания дополнительной работы и затрат, которые возникают, когда разработчики выбирают быстрое и легкое решение проблемы, вместо более эффективного и продуманного, но требующего времени подхода. Самопризнанные технические долги (SATD) представляют собой особый вид технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самопризнанные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих методов сосредотачиваются на захвате ключевых токенов, связанных с различными категориями TD, пренебрегая богатой информацией, встроенной в сам исходный код. Недавние исследования были направлены на обнаружение SATD путем анализа комментариев, встроенных в исходный код, и было проведено мало работ, касающихся технических долгов, содержащихся в исходном коде. Чтобы заполнить этот пробел, в данном исследовании, через анализ комментариев и их связанного исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы создали первый набор данных технических долгов, идентифицированных через комментарии к коду, вместе с соответствующим исходным кодом. В ходе эмпирической оценки мы выяснили, что комментарии из полученного набора данных помогают улучшить производительность прогнозирования моделей обнаружения SATD. Более важно, что включение классифицированного исходного кода значительно улучшает точность прогнозирования различных типов технических долгов. В этом смысле наша работа двойственна: (i) Мы верим, что наш набор данных будет катализатором для будущих работ в данной области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технических долгов; (ii) Предложенные классификаторы могут служить базовыми моделями для других исследований по обнаружению TD с помощью созданного набора данных.

LLaMo: Large Language Model-based Molecular Graph Assistant

Большие языковые модели (LLMs) продемонстрировали выдающиеся способности к обобщению и выполнению инструкций благодаря настройке на инструкции. Прогресс в области LLM и настройки на инструкции привел к развитию Больших моделей языка и зрения (LVLMs). Однако возможности LLM и настройки на инструкции были менее изучены в молекулярной области. Поэтому мы предлагаем LLaMo: ассистент молекулярных графов на основе большой языковой модели, который представляет собой обученную от начала до конца большую молекулярную графо-языковую модель. Для сближения различий между языковыми и графовыми модальностями мы представляем многоуровневый графовый проектор, который преобразует представления графов в токены графов, абстрагируя выходные представления каждого слоя GNN и мотивные представления с помощью механизма перекрестного внимания. Мы также вводим данные инструкций для молекулярных графов, генерируемые машинами, для настройки большой молекулярной графо-языковой модели для общего понимания молекул и языка. Наши обширные эксперименты показывают, что LLaMo демонстрирует наилучшие результаты на разнообразных задачах, таких как генерация описания молекул, прогнозирование свойств и предсказание названий по ИЮПАК. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

moleculargnnllm

Открытие фундаментальных физических законов через видео генерацию: Перспектива физических законов

Вот перевод на русский язык: "Видео-генерация от OpenAI Sora подчеркивает потенциал для разработки мировых моделей, которые следуют фундаментальным физическим законам. Однако способность моделей генерации видео обнаруживать такие законы исключительно на основе визуальных данных без человеческих предпосылок может быть поставлена под сомнение. Модель мира, изучающая истинный закон, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиданные сценарии. В этой работе мы оцениваем три ключевых сценария: в рамках распределения, за пределами распределения и комбинаторная обобщаемость. Мы разработали тестовую среду для симуляции 2D-движения объектов и их столкновений для генерации видео, детерминированно управляемых одним или несколькими законами классической механики. Это обеспечивает неограниченный запас данных для крупномасштабных экспериментов и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии для предсказания движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в рамках распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачи в сценариях за пределами распределения. Дальнейшие эксперименты выявили два ключевых инсайта о механизмах обобщения этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого демонстрируют "казусное" поведение обобщения, то есть имитируют ближайший пример обучения; (2) при обобщении на новые случаи модели отдают приоритет различным факторам при обращении к обучающим данным: цвет > размер > скорость > форма. Наше исследование показывает, что масштабирование само по себе недостаточно для того, чтобы модели генерации видео могли раскрывать фундаментальные физические законы, несмотря на его роль в более широком успехе Sora. См. страницу нашего проекта на https://phyworld.github.io."

Прогнозирование состояния здоровья литий-ионных батарей с использованием моделей состояния пространства Mamba

Состояние здоровья (SOH) литий-ионного аккумулятора является критическим параметром, который определяет оставшуюся емкость и срок службы батареи. В данной статье мы предлагаем SambaMixer — новую структурированную модель состояния пространства (SSM) для прогнозирования состояния здоровья литий-ионных аккумуляторов. Предлагаемая SSM основана на архитектуре MambaMixer, которая разработана для обработки многомерных временных сигналов. Мы оцениваем нашу модель на датасете NASA по разряду батарей и показываем, что наша модель превосходит современные достижения на этом датасете. Кроме того, мы вводим новый метод повторного выборки на основе якорей, который обеспечивает, что временные сигналы имеют ожидаемую длину, а также служит методом аугментации данных. В заключение, мы корректируем прогнозы на основе времени выборки и разницы во времени циклов с использованием позиционных кодировок, чтобы улучшить производительность нашей модели и изучить эффекты восстановления. Наши результаты доказывают, что наша модель способна предсказывать SOH литий-ионных аккумуляторов с высокой точностью и надежностью.

Физика в предсказании следующего токена: Передача информации и энергии в авто-регрессионных моделях

Мы открыли базовые физические принципы в предсказании следующего токена (NTP). Мы идентифицировали закон сохранения информации в NTP и предложили Первый закон информационной ёмкости (IC-1), демонстрирующий, что суть возникновения интеллекта в авторегрессионных моделях по своей сути является процессом передачи информации. Мы также ввели в NTP принцип Ландауэра, сформулировав Второй закон информационной ёмкости (IC-2), который устанавливает связь между обучением авторегрессионных моделей и потреблением энергии. Кроме того, мы представили несколько следствий, имеющих практическое значение для производственных практик. В заключение, мы подтвердили совместимость и дополняемость наших открытий с существующими теориями.