Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Интерактивная Медицинская Сегментация Изображений: Бенчмарк IMed-361M и Базовая Модель

Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась из-за недостаточной доступности крупномасштабных, разнообразных и плотно аннотированных наборов данных, что препятствовало обобщаемости моделей и постоянной оценке результатов для различных моделей. В данной статье мы представляем эталонный набор данных IMed-361M, который является значительным шагом вперед в исследованиях по общей IMIS. Сначала мы собрали и стандартизировали более 6,4 миллиона медицинских изображений и их соответствующие маски истинного положения из различных источников данных. Затем, используя мощные возможности распознавания объектов базовой модели зрения, мы автоматически создали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, которые ограничены определёнными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок — в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на основе этого набора данных, которая поддерживает создание высококачественных масок через интерактивные вводы, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оцениваем её производительность на задачах сегментации медицинских изображений с различных точек зрения, демонстрируя превосходную точность и масштабируемость по сравнению с существующими интерактивными моделями сегментации. Для содействия исследованиям по базовым моделям в медицинском компьютерном зрении, мы публикуем IMed-361M и модель по адресу https://github.com/uni-medical/IMIS-Bench.

Исследование открытого мира сегментации частей объектов в 3D

Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части любого объекта на основе любого текстового запроса. Предыдущие методы были ограничены категориями объектов и словарным запасом частей. Недавние достижения в области ИИ продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этими успехами, мы предлагаем модель прямого прогнозирования в открытом мире для сегментации частей 3D, которая может быть применена без обучения к любому объекту. Наш подход, названный Find3D, обучает модель вложения точек общего назначения на крупномасштабных 3D активах из интернета без каких-либо человеческих аннотаций. Он сочетает в себе движок данных, работающий на основе фундаментальных моделей для аннотирования данных, с методом контрастного обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с лучшим из существующих методов. Наша модель в 6 до более чем 300 раз быстрее существующих базовых моделей. Чтобы поощрить исследования в области сегментации частей 3D общего назначения в открытом мире, мы также выпускаем эталон для общих объектов и частей. Сайт проекта: https://ziqi-ma.github.io/find3dsite/

Исследование возможностей LLM: Тест на невозможное

Введение этой статьи представляет новую оценочную систему, разработанную для оценки способности крупных языковых моделей (LLMs) признавать неопределенность в 675 принципиально неразрешимых проблемах. Используя тщательно подобранный набор данных с вопросами уровня аспирантуры, ответы на которые намеренно не могут быть известны, мы оценили двенадцать передовых LLMs, включая как открытые, так и закрытые модели, по их склонности признавать незнание, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазоне 62-68% точности в признании того, что решение проблемы неизвестно, в областях от биологии до философии и математики. Мы наблюдали обратную зависимость между сложностью проблемы и точностью модели, где GPT-4 демонстрировал более высокие показатели признания неопределенности на более сложных задачах (35.8%) по сравнению с более простыми (20.0%). Этот паттерн указывает на то, что модели могут быть склонны к генерации спекулятивных ответов, когда проблемы кажутся более решаемыми. Исследование также выявило значительные вариации по категориям проблем, где модели испытывали трудности в признании неопределенности в задачах на изобретение и NP-трудных проблемах, в то время как относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят вклад в растущий корпус исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Таким образом, этот тест на невозможность расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLMs распознавать границы собственных знаний, что подсказывает новые направления для улучшения архитектур обучения моделей и подходов к оценке.

GMAI-VL и GMAI-VL-5.5M: Крупномасштабная модель зрения-языка и обширный мультимодальный набор данных для общей медицинской ИИ

Несмотря на значительные достижения в области общих искусственных интеллектов, таких как GPT-4, их эффективность в медицинской сфере (общий медицинский искусственный интеллект, ГМИИ) остается ограниченной из-за отсутствия специализированных медицинских знаний. Чтобы решить эту проблему, мы представляем ГМИИ-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных охватывает широкий спектр задач, включает разнообразные модальности и содержит высококачественные изображения и текстовые данные. На основе этого мультимодального набора данных мы предлагаем ГМИИ-VL, общую медицинскую модель визуально-языкового взаимодействия, использующую стратегию обучения в три этапа. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, что повышает её возможности обрабатывать мультимодальные данные и поддерживать точную диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что ГМИИ-VL достигла передовых результатов в широком диапазоне мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных ГМИИ-VL-5.5M, введение модели ГМИИ-VL и установление новых эталонов в нескольких медицинских областях. Код и набор данных будут выпущены по адресу https://github.com/uni-medical/GMAI-VL.

SegBook: A Comprehensive Guide to Volumetric Medical Image Segmentation

Компьютерная томография (КТ) является одной из самых популярных модальностей для медицинской визуализации. КТ-изображения внесли наибольший вклад в создание общедоступных наборов данных для задач сегментации объемных медицинских изображений, охватывающих анатомические структуры всего тела. Большое количество изображений КТ всего тела предоставляет возможность предварительно обучать мощные модели, например, STU-Net, обученную в контролируемом режиме, для сегментации множества анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные задачи медицинской сегментации, особенно при сегментации других модальностей и разнообразных целей. Для решения этой проблемы важно создать крупномасштабный эталон для всеобъемлющей оценки условий переноса. Таким образом, мы собрали 87 публичных наборов данных, различающихся по модальности, цели и размеру выборки, для оценки способности к переносу моделей, предварительно обученных на КТ всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения с переносом через модальности и цели. Наши экспериментальные результаты показывают, что (1) может существовать эффект узкого места, связанный с размером набора данных при тонкой настройке, с большим улучшением как на малых, так и на больших наборах данных, чем на средних. (2) Модели, предварительно обученные на КТ всего тела, демонстрируют эффективный перенос модальностей, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на КТ всего тела не только поддерживает высокую производительность в обнаружении структур, но и показывает эффективность в обнаружении поражений, демонстрируя адаптивность по отношению к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения с переносом сможет направить будущие исследования в области сегментации объемных медицинских изображений.

Материал для всего: Генерация материалов для любых 3D объектов с помощью диффузии

Мы представляем Material Anything, полностью автоматизированный унифицированный фреймворк для диффузии, предназначенный для создания физически обоснованных материалов для 3D объектов. В отличие от существующих методов, которые полагаются на сложные пайплайны или оптимизации, специфичные для каждого случая, Material Anything предлагает надежное, комплексное решение, адаптируемое к объектам при различных условиях освещения. Наш подход использует предварительно обученную модель диффузии изображений, улучшенную за счет трехголовой архитектуры и потерь при рендеринге, чтобы повысить стабильность и качество материалов. Кроме того, мы вводим маски уверенности в качестве динамического переключателя внутри модели диффузии, что позволяет ей эффективно работать как с текстурированными, так и с нетекстурированными объектами при различных условиях освещения. Используя стратегию прогрессивной генерации материалов, руководствуясь этими масками уверенности, а также рефайнером материалов в пространстве UV, наш метод обеспечивает последовательные, готовые к UV-использованию материалы. Обширные эксперименты демонстрируют, что наш подход превосходит существующие методы по широкому диапазону категорий объектов и условий освещения.

Отчет о Результатах Второго Хакатона по Применению LLM в Материаловедении и Химии

Здесь мы представляем результаты второго хакатона по большим языковым моделям (LLM) для применения в науке о материалах и химии, который собрал участников по всему миру в гибридных локациях и привел к 34 заявкам команд. Заявки охватывали семь ключевых областей применения и продемонстрировали разнообразное использование LLM в следующих направлениях: (1) прогнозирование свойств молекул и материалов; (2) дизайн молекул и материалов; (3) автоматизация и новые интерфейсы; (4) научная коммуникация и образование; (5) управление и автоматизация научных данных; (6) генерация и оценка гипотез; и (7) извлечение знаний и рассуждений из научной литературы. Каждая заявка команды представлена в сводной таблице с ссылками на код и краткими статьями в приложении. Помимо результатов команд, мы обсуждаем сам хакатон и его гибридный формат, который включал физические центры в Торонто, Монреале, Сан-Франциско, Берлине, Лозанне и Токио, а также глобальный онлайн-центр для обеспечения местного и виртуального сотрудничества. В целом, мероприятие подчеркнуло значительные улучшения в возможностях LLM с прошлого года, указывая на продолжение расширения применения LLM в исследованиях в области науки о материалах и химии. Эти результаты демонстрируют двойное использование LLM как многоцелевых моделей для разнообразных задач машинного обучения, так и платформ для быстрого прототипирования специализированных приложений в научных исследованиях.

Введение в Diptych Prompting: Инновационный подход к генерации изображений на основе текста и субъекта

Текстово-ориентированная генерация изображений стремится создавать изображения нового объекта в желаемом контексте, точно захватывая как визуальные характеристики объекта, так и семантическое содержание текстового запроса. Традиционные методы полагаются на трудоемкую и ресурсоемкую тонкую настройку для выравнивания объекта, в то время как недавние подходы без обучения используют динамическое создание изображений, часто жертвуя выравниванием объекта. В этой статье мы представляем метод "Диптих подсказки" (Diptych Prompting), новый подход без обучения, который интерпретирует задачу как вставку недостающих элементов с точным выравниванием объекта, используя возникающее свойство генерации диптихов в крупномасштабных моделях текст-изображение. "Диптих подсказки" организует неполный диптих, помещая эталонное изображение в левую панель, и выполняет условное на текст восстановление на правой панели. Мы также предотвращаем нежелательное утечение контента, удаляя фон в эталонном изображении и улучшаем детализацию генерируемого объекта путем усиления внимания между панелями во время восстановления. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы подсказок изображений без обучения, создавая изображения, которые предпочтительны пользователям с визуальной точки зрения. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и стилизованное создание изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/

Перенос знаний между модальностями с использованием текстового надзора

Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передачей Знаний. Аналогично человеческому восприятию, мы используем взаимодействие между модальностями для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном энкодере уже достаточно низкоуровневых признаков (например, форма, внешний вид, цвет), которые могут быть использованы для описания ранее неизвестных высокоуровневых концепций. Предоставив текстовое описание новой концепции, наш метод работает путем сопоставления известных низкоуровневых признаков визуального энкодера с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний может успешно вводить новые концепции в мультимодальные модели очень эффективным способом, требуя только одного описания целевой концепции. Наш подход совместим как с отдельными текстовыми и визуальными энкодерами (например, CLIP), так и с параметрами, общими для разных модальностей. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить уже известные модели концепции. Используя Передачу Знаний, мы улучшаем нулевую настройку производительности в различных задачах, таких как классификация, сегментация, поиск изображений по тексту и создание подписей.

Лучшее из двух миров: преимущества гибридных моделей граф-секвенция

Современные модели последовательностей (например, трансформеры, линейные РНС и т.д.) вышли на передовые позиции в последних фреймворках глубокого обучения, в основном благодаря своей эффективности, способности к представлению данных и/или возможности захвата дальних зависимостей. Применение этих моделей последовательностей к данным с графовой структурой недавно стало популярным как альтернатива Сетям с Передачей Сообщений (MPNN). Однако, существует недостаток общих основ относительно того, что делает модель последовательности графа хорошей, а также математического описания преимуществ и недостатков использования различных моделей последовательностей для обучения на графах. В этом направлении мы сначала представляем Модель Последовательностей Графов (GSM), единую платформу для адаптации моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное Кодирование, которое кодирует локальные окрестности вокруг каждой вершины; и (3) Глобальное Кодирование, которое использует масштабируемую модель последовательности для захвата дальних зависимостей в последовательностях. Эта платформа позволяет нам понимать, оценивать и сравнивать мощность различных базовых моделей последовательностей в задачах с графами. Наши теоретические оценки представительной способности трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач графов показывают, что существуют как положительные, так и отрицательные стороны для обоих типов моделей. Опираясь на это наблюдение, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм Иерархического Аффинного Кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают дизайн GSM++, показывая, что GSM++ превосходит базовые модели в большинстве тестов на эталонных примерах.

Исследование механизмов неявного рассуждения у крупных языковых моделей (LLM)

Известно, что цепочка рассуждений (Chain-of-Thought) может значительно улучшить производительность моделей языкового обучения (LLMs) при выполнении сложных задач. Однако, поскольку это также приводит к более медленным скоростям вывода и увеличению вычислительных затрат, многие исследования пытались использовать неявную цепочку рассуждений (implicit CoT), которая не требует от моделей явного генерирования промежуточных шагов. Однако между эффективностью этих методов и традиционными явными методами CoT все еще существует разрыв. Это вызывает сомнения в том, действительно ли неявная CoT равнозначна явной CoT? Поэтому в данном исследовании мы рассматриваем этот вопрос через эксперименты. Мы анализируем информацию о промежуточных шагах из скрытых состояний модели во время выполнения неявной CoT. Результаты удивительно показывают, что LLM почти не думают о промежуточных шагах, что наводит на мысль, что они могут полагаться скорее на опыт, чем на строгое пошаговое рассуждение. Более того, мы обнаружили, что способности моделей к неявному рассуждению подвержены воздействиям и нестабильны, что подтверждает необходимость явной CoT для эффективной поддержки сложных задач.

Визуализация предпочтений: Революция в персонализации рекомендаций

Мы предполагаем, что визуальная история пользователя, отражающая его повседневную жизнь, предоставляет ценные сведения о его интересах и предпочтениях, и может быть использована для персонализации. Среди множества задач, стоящих перед нами, наиболее важной является разнообразие и шум в визуальной истории, содержащей изображения, которые не обязательно связаны с задачей рекомендации, не обязательно отражают интересы пользователя или даже не имеют отношения к его предпочтениям. Существующие системы рекомендаций либо опираются на специфические для задачи логи взаимодействия пользователя, например, история онлайн-покупок для рекомендаций покупок, либо сосредотачиваются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и уточняет представления изображений и использует эти сигналы для персонализации. Мы создали две новые эталонные базы данных с визуальными историями, не зависящими от конкретных задач, и показали, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по метрике Hit@3, и превосходит GPT-4o на 2-5%. Наш подход открывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не работают.

Предсказание Эмерджентных Способностей с Помощью Дообучения

Одна из ключевых нерешённых проблем в современном масштабировании языковых моделей (LLM) — это недостаток понимания в отношении возникающих способностей. В частности, известно, что потери при предварительной тренировке языковых моделей можно довольно точно предсказать в зависимости от вычислительных ресурсов. Однако, способности модели на практике намного менее предсказуемы — иногда они даже демонстрируют внезапные скачки, что затрудняет прогнозирование возможностей будущих моделей. В данной работе мы сначала формулируем задачу предсказания возникновения: при доступе к текущим LLM, которые показывают случайную точность на заданной задаче, можно ли предсказать, будут ли будущие модели (GPT-N+1) демонстрировать значительную точность на этой задаче? Затем мы обнаруживаем простой инсайт для этой проблемы: дообучение LLM на конкретной задаче может сдвинуть точку масштабирования, в которой происходит возникновение, в сторону менее мощных моделей. Для реализации этого инсайта, мы можем дообучать LLM с различным объёмом данных и подогнать параметрическую функцию, которая предсказывает, когда произойдет возникновение (т.е., "законы возникновения"). Мы проверяем этот подход, используя четыре стандартных NLP бенчмарка, где крупномасштабные открытые LLM уже демонстрируют возникновение (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, возникли ли модели, обученные с использованием до 4 раз больше вычислительных ресурсов. В заключение, мы представляем кейс-стади двух реалистичных применений предсказания возникновения.

Осторожные оптимизаторы: Улучшение обучения одной строкой кода

AdamW долгое время был стандартным оптимизатором для предобучения трансформеров. Многие годы наше сообщество искало более быстрые и стабильные оптимизаторы, при этом стремясь к исключительно положительным результатам. В этой работе мы предлагаем однострочное изменение в Pytorch для любого оптимизатора на основе импульса, который мы переименовали в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонову функцию Adam и не нарушает гарантии сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое новое семейство оптимизаторов. Среди них мы выбрали самый простой для эмпирических экспериментов, показав ускорение предобучения Llama и MAE до 1,47 раза. Код доступен по адресу https://github.com/kyleliang919/C-Optim.

Введение в Multi-Head Mixture-of-Experts (MH-MoE)

Много-головой смесью экспертов (MH-MoE) демонстрирует превосходную производительность, используя механизм множественных голов для совместного внимания к информации из различных пространств представлений внутри разных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPS, так и паритет параметров с разреженными моделями смеси экспертов. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества по сравнению с обычными моделями MoE и моделями MoE с тонкой настройкой. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битовыми крупными языковыми моделями (LLMs), такими как BitNet.

One Diffusion to Generate Them All

Мы представляем OneDiffusion, универсальную модель большого масштаба, которая обеспечивает двунаправленный синтез и понимание изображений для различных задач. Она позволяет выполнять условную генерацию из таких входных данных, как текст, глубина, поза, макет и семантические карты, а также справляется с задачами, такими как устранение размытия изображения, увеличение разрешения, а также обратные процессы, например, оценка глубины и сегментация. Кроме того, OneDiffusion позволяет осуществлять многовидовую генерацию, оценку положения камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель использует простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными масштабами шума в процессе обучения, что позволяет любому кадру выступать в роли условного изображения во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое обучение на многозадачность и легко адаптируется к любому разрешению, повышая как обобщаемость, так и масштабируемость. Экспериментальные результаты показывают конкурентоспособную производительность по задачам как в генерации, так и в предсказании, включая текст-в-изображение, многовидовую генерацию, сохранение идентичности, оценку глубины и положения камеры, несмотря на относительно небольшой обучающий набор данных. Наш код и контрольные точки доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion.

От CISC к RISC: Перевод Ассемблерного Кода с Помощью Языковых Моделей

Переход с архитектуры x86 на ARM становится все более распространенным в различных областях, в первую очередь благодаря энергоэффективности ARM и улучшенной производительности в традиционных секторах. Однако, этот сдвиг в архитектуре ISA представляет собой значительные вызовы, в основном из-за обширной наследственной экосистемы программного обеспечения x86 и отсутствия переносимости между проприетарными экосистемами и программными стеками. В данной статье представлен CRT, легковесный транспайлер на базе LLM, который автоматически преобразует ассемблер x86 в ассемблер ARM. Наш подход преодолевает фундаментальный архитектурный разрыв между CISC-архитектурой x86 и RISC-архитектурой ARM, сохраняя семантику программы и оптимизируя производительность. Мы оцениваем CRT на различных реальных приложениях, достигая точности перевода 79.25% с x86 на ARMv5 по нашему обширному тестовому набору и точности 88.68% с x86 на RISC-V. В практических внедрениях на оборудовании Apple M2 (ARMv8) наш транспилированный код обеспечивает ускорение в 1.73 раза по сравнению с виртуализационным движком Apple Rosetta 2, при этом обеспечивая 2.41-кратное улучшение использования памяти и 1.47-кратное улучшение энергопотребления. Через тестирование и анализ мы показываем, что CRT успешно преодолевает разрыв между CISC и RISC и генерирует корректно исполняемый код RISC, несмотря на барьеры "языка" машины. Мы публикуем наш код, модели, обучающие наборы данных и бенчмарки по адресу: https://ahmedheakl.github.io/asm2asm/.

SplatFlow: Модель многоугольного потока для синтеза 3D Gaussian Splatting

Текстовая генерация и редактирование 3D сцен имеют значительный потенциал для оптимизации создания контента через интуитивно понятные взаимодействия с пользователем. Несмотря на недавние достижения, которые используют 3D Гауссово Разбрызгивание (3DGS) для высококачественного и реального времени рендеринга, существующие методы часто специализированы и ориентированы на конкретные задачи, не предлагая единой платформы для как генерации, так и редактирования. В данной статье мы представляем SplatFlow, комплексную платформу, которая устраняет этот пробел, предоставляя возможности для прямой генерации и редактирования 3DGS. SplatFlow состоит из двух основных компонентов: модели многовидового выпрямленного потока (RF) и декодера Гауссового Разбрызгивания (GSDecoder). Модель многовидового RF работает в латентном пространстве, одновременно генерируя многовидовые изображения, глубины и позиции камеры, основываясь на текстовых подсказках, что решает проблемы, связанные с различными масштабами сцен и сложными траекториями камеры в реальных условиях. Затем GSDecoder эффективно переводит эти латентные выходы в представления 3DGS через метод прямого прохождения 3DGS. Используя методы инверсии и закрашивания без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр задач 3D, включая редактирование объектов, синтез новых видов и оценку положения камеры, в рамках единой платформы без необходимости дополнительных сложных конвейеров. Мы подтверждаем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя её универсальность и эффективность в различных задачах генерации, редактирования и закрашивания в 3D.

Путь к репликации O1: Простая дистилляция и её последствия

Эта статья представляет собой критический анализ текущих подходов к репликации возможностей модели O1 от OpenAI, с особым акцентом на широко распространённое, но часто не раскрываемое использование техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к репликации O1, данное исследование показывает, как простая дистилляция с использованием API O1, в сочетании с контролируемой настройкой, может достигать превосходных результатов в сложных задачах математического рассуждения. Путём обширных экспериментов мы показываем, что базовая модель, настроенная на десятки тысяч образцов, дистиллированных из O1, превосходит предварительную версию O1 на Американском пригласительном математическом экзамене (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за рамки математического рассуждения и исследует возможности обобщения моделей, дистиллированных из O1, на разнообразные задачи: галлюцинации, безопасность и вопросы и ответы в открытом домене. Отметим, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого QA и стали значительно менее подвержены подхалимству после настройки. Мы намеренно публикуем эти результаты для содействия прозрачности в исследованиях ИИ и для оспаривания текущей тенденции к скрытию технических утверждений в этой области. Наша работа включает: (1) детальное техническое изложение процесса дистилляции и его эффективности, (2) всеобъемлющую рамку бенчмарков для оценки и категоризации попыток репликации O1 на основе их технической прозрачности и воспроизводимости, (3) критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции. Наш анализ завершается важным горьким уроком: хотя стремление к созданию более способных систем ИИ важно, развитие исследователей, опирающихся на мышление с первых принципов, является первостепенным.

Все языки имеют значение: оценка LMM на культурно разнообразных 100 языках

Существующие крупные мультимодальные модели (LMMs) обычно сосредотачиваются только на нескольких регионах и языках. По мере того как LMMs продолжают совершенствоваться, становится всё более важным обеспечить их понимание культурных контекстов, уважение к местным особенностям и поддержку языков с ограниченными ресурсами, при этом эффективно интегрируя соответствующие визуальные подсказки. В стремлении к культурно разнообразным глобальным мультимодальным моделям наш предложенный бенчмарк "All Languages Matter" (ALM-бенч) представляет собой наибольшую и наиболее всестороннюю попытку на сегодняшний день для оценки LMMs на 100 языках. ALM-бенч бросает вызов существующим моделям, проверяя их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая многие языки с ограниченными ресурсами, которые традиционно недостаточно представлены в исследованиях LMM. Бенчмарк предлагает надежную и детализированную систему оценки, включающую различные форматы вопросов, такие как истинно/ложно, выбор из нескольких вариантов и открытые вопросы, которые далее делятся на категории кратких и развернутых ответов. Дизайн ALM-бенча обеспечивает комплексную оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для отражения богатства глобальных культур ALM-бенч тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и ритуалов до знаменитых личностей и праздников. Таким образом, ALM-бенч не только предоставляет строгую тестовую среду для передовых открытых и закрытых LMMs, но и подчеркивает важность культурного и лингвистического включения, стимулируя разработку моделей, которые могут эффективно обслуживать разнообразные глобальные сообщества. Наш бенчмарк доступен публично.

От судейства к оценке: возможности и вызовы LLM как судьи

Оценка и анализ долгое время были ключевыми проблемами в искусственном интеллекте (ИИ) и обработке естественного языка (ОЕЯ). Однако традиционные методы, будь то на основе сопоставления или на основе встраивания, часто не справляются с оценкой тонких атрибутов и не дают удовлетворительных результатов. Недавние достижения в области больших языковых моделей (LLM) вдохновили на создание парадигмы "LLM как судья", где LLM используются для оценки, ранжирования или выбора в различных задачах и приложениях. В этой статье представлен подробный обзор оценки и судейства на основе LLM, предлагающий глубокий обзор для продвижения этого развивающегося направления. Мы начинаем с подробных определений с точки зрения ввода и вывода. Затем мы представляем всеобъемлющую таксономию для изучения концепции "LLM как судья" по трем измерениям: что оценивать, как оценивать и где оценивать. В заключение, мы собираем эталонные тесты для оценки "LLM как судья" и выделяем ключевые проблемы и перспективные направления, стремясь предоставить ценные идеи и вдохновить будущие исследования в этой многообещающей области. Список статей и дополнительные ресурсы о "LLM как судья" можно найти по адресам https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.

DREAM RUNNER: Генерация Видео с Детализированным Сюжетом с Использованием Адаптации Движения с Помощью Поиска

Генерация видеороликов с повествованием (SVG) недавно появилась как задача по созданию длинных видеороликов с несколькими движениями и сценами, которые последовательно представляют историю, описанную в исходном текстовом сценарии. SVG обладает огромным потенциалом для создания разнообразного контента в сфере медиа и развлечений; однако, она также представляет значительные вызовы: (1) объекты должны демонстрировать широкий спектр детализированных, сложных движений, (2) множество объектов должны появляться последовательно во всех сценах, и (3) субъекты могут требовать нескольких движений с плавными переходами в пределах одной сцены. Чтобы решить эти проблемы, мы предлагаем DreamRunner, новый метод генерации видео из истории: Во-первых, мы структурируем входной сценарий с помощью большой языковой модели (LLM) для облегчения как крупномасштабного планирования сцен, так и детализированного планирования расположения и движения объектов. Затем DreamRunner предлагает адаптацию на момент тестирования с улучшенной выборкой для захвата целевых приоритетов движения для объектов в каждой сцене, поддерживая разнообразную настройку движений на основе выбранных видео, что способствует созданию новых видео с сложными, скриптовыми движениями. Наконец, мы предлагаем новый модуль пространственно-временного регионального 3D внимания и внедрения приоритетов SR3AI для тонкой настройки связывания объектов и движений и управления семантикой кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовые достижения в консистентности персонажей, соответствии тексту и плавных переходах. Кроме того, DreamRunner демонстрирует сильные способности к точному выполнению условий в составной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. В заключение, мы подтверждаем способность DreamRunner к генерации взаимодействий между множеством объектов с помощью качественных примеров.

EdgeCape: Революционный подход к категорийно-независимой оценке поз

Категория-агностическая оценка позы (CAPE) позволяет локализовать ключевые точки на различных категориях объектов с помощью одной модели, используя одну или несколько аннотированных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов графа, а не изолированных точек) помогает справляться с перекрытиями и разрывами симметрии. Однако эти методы предполагают статичный граф позы с равновесными рёбрами, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения, предсказывая веса рёбер графа, что оптимизирует локализацию. Для дальнейшего использования структурных предпосылок мы предлагаем интеграцию марковского структурного смещения, которое модулирует взаимодействие само-внимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оценка на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, показала, что EdgeCape достигает результатов на уровне лучших в мире в 1-шотовом режиме и лидирует среди методов схожих размеров в 5-шотовом режиме, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.

Факторизованная визуальная токенизация и генерация

Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на базе трансформеров превосходно справляться с генерацией изображений. Несмотря на их успех, токенизаторы на основе векторного квантования (VQ), такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченных размеров словаря. Простое расширение кодбука часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованное Квантование (FQ), новый подход, который оживляет токенизаторы на основе VQ, разлагая большой кодбук на несколько независимых подкодбуков. Это разложение уменьшает сложность поиска в больших кодбуках, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы каждый подкодбук захватывал различную и дополняющую информацию, мы предлагаем регуляризацию разъединения, которая явно снижает избыточность, способствуя разнообразию среди подкодбуков. Более того, мы интегрируем обучение представлений в процесс обучения, используя предобученные модели видения, такие как CLIP и DINO, для придания семантической насыщенности изучаемым представлениям. Эта конструкция обеспечивает, что наш токенизатор захватывает разнообразные семантические уровни, что приводит к более выразительным и разъединенным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовых результатов. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для автопрогрессивной генерации изображений. [Ссылка на проект](https://showlab.github.io/FQGAN)