Ай Дайджест

Свежая выжимка ml и AI статей - каждый день

Подборка статей по тегу "representation"

Эмердженция абстракций: механизм кодирования и декодирования концептов для обучения в контексте в трансформерах

Люди дистиллируют сложные переживания в основные абстракции, которые позволяют быстрому обучению и адаптации. Аналогично, авторегрессивные трансформеры демонстрируют адаптивное обучение через обучение в контексте (ICL), что ставит вопрос о том, как. В этой статье мы предлагаем механизм кодирования-декодирования концепций, чтобы объяснить ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения малого трансформера и сообщаем о сопутствующем возникновении кодирования и декодирования концепций. Поскольку модель учится кодировать разные латентные концепции (например, "Поиск первого существительного в предложении.") в разные, отделимые представления, она одновременно строит условные алгоритмы декодирования и улучшает свою производительность ICL. Мы подтверждаем наличие этого механизма на предобученных моделях различного масштаба (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Далее, через механистические интервенции и контролируемую тонкую настройку, мы демонстрируем, что качество кодирования концепции причинно связано и предсказуемо для производительности ICL. Наши эмпирические выводы проливают свет на лучшее понимание успеха и режима неудач больших языковых моделей через их представления.

StrandHead: Генерация 3D-аватаров с помощью текстовых подсказок

Хотя прическа указывает на ярко выраженную индивидуальность, существующие методы генерации аватаров не способны моделировать практичные волосы из-за обобщенного или запутанного представления. Мы предлагаем StrandHead, новый метод генерации 3D аватаров головы из текста, способный генерировать раздельные 3D волосы с представлением в виде прядей. Не используя 3D данные для контроля, мы демонстрируем, что реалистичные пряди волос могут быть сгенерированы из подсказок путем дистилляции 2D генеративных диффузионных моделей. С этой целью мы предлагаем серию надежных приоритетов по инициализации формы, геометрическим примитивам и статистическим характеристикам стрижки, что приводит к стабильной оптимизации и согласованной работе с текстом. Обширные эксперименты показывают, что StrandHead достигает передового уровня реалистичности и разнообразия сгенерированных 3D голов и волос. Сгенерированные 3D волосы также легко интегрируются в Unreal Engine для физического моделирования и других приложений. Код будет доступен на https://xiaokunsun.github.io/StrandHead.github.io.

Геометрическое решение задач через унифицированное формализованное обучение: Модель GeoX

Несмотря на их компетентность в общих задачах, многомодальные большие языковые модели (MLLMs) сталкиваются с трудностями при автоматическом решении геометрических задач (GPS), что требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предобучения на естественных изображениях и текстах, а также отсутствия автоматической верификации в процессе решения задач. Кроме того, современные геометрические специалисты ограничены их специализированными конструкциями, что делает их менее эффективными для более широких геометрических проблем. С этой целью мы представляем GeoX, многомодельную большую модель, сосредоточенную на понимании и рассуждениях в области геометрии. Учитывая существенные различия между геометрическими диаграммами-символами и естественными изображениями-текстами, мы вводим унимодальное предобучение для разработки кодировщика диаграмм и декодера символов, что улучшает понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии и языка, эффективную парадигму предобучения, которая преодолевает модальность разрыва между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-И-Выборщик (GS-Former) для генерации дискриминационных запросов и устранения непредоставляющих представлений из неравномерно распределённых геометрических сигналов. Наконец, GeoX получает выгоду от визуальной настройки инструкций, что позволяет ему принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как специалистов общего профиля, так и геометрических специалистов на общепризнанных контрольных точках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.

OLA-VLM: Оптимизация визуального восприятия в многомодальных больших языковых моделях

Стандартная практика разработки современных многомодальных языковых моделей (MLLM) заключается в том, чтобы подавать признаки от визуальных кодеров в языковую модель (LLM) и обучаться с использованием естественного языка. В этой работе мы выдвигаем упущенную возможность оптимизировать промежуточные представления LLM с точки зрения визуального восприятия (цель), т.е. использование только естественного языка в качестве надзора является субоптимальным для способности MLLM к визуальному пониманию. С этой целью мы предлагаем OLA-VLM, первый подход, который дистиллирует знания в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель на этапе предобучения MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием естественного языка, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их последующей производительностью. Более того, при изучении нашего OLA-VLM мы наблюдаем улучшение качества представления благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит базовые уровни одно- и многокодировщиков, подтверждая превосходство нашего подхода по сравнению с явной подачей соответствующих признаков в LLM. В частности, OLA-VLM увеличивает производительность в среднем на 2,5% по различным тестам, с заметным улучшением на 8,7% в задаче Depth в CV-Bench. Наш код является открытым источником по адресу https://github.com/SHI-Labs/OLA-VLM.

Максимизация согласования с минимальной обратной связью: Эффективное обучение вознаграждений для согласования визуомоторной политики робота

Политики визуомоторных роботов, все более предобученные на больших наборах данных, обещают значительные достижения в различных областях робототехники. Однако согласование этих политик с предпочтениями конечных пользователей остается проблемой, особенно когда предпочтения трудно указать. Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало преобладающим механизмом для согласования в не-облаченных областях, таких как большие языковые модели, оно не достигло такого же успеха в согласовании визуомоторных политик из-за колоссального объема обратной связи от людей, необходимого для изучения визуальных функций награды. Чтобы решить эту проблему, мы предлагаем Обучение на основе предпочтений, выровненных по представлению (RAPL), метод, основанный только на наблюдениях, для обучения визуальным наградам, используя значительно меньше обратной связи от человеческих предпочтений. В отличие от традиционного RLHF, RAPL сосредоточивает обратную связь от людей на дообучении предобученных визуальных энкодеров для согласования с визуальным представлением конечного пользователя, а затем строит плотную визуальную награду через сопоставление признаков в этом согласованном пространстве представлений. Сначала мы валидируем RAPL через симуляционные эксперименты в бенчмарке X-Magical и манипуляции с роботом Franka Panda, демонстрируя, что он может учить награды, согласованные с человеческими предпочтениями, более эффективно использует данные предпочтений и обобщает на различных воплощениях роботов. Наконец, наши аппаратные эксперименты согласовывают предобученные Политики диффузии для трех задач манипуляции объектами. Мы обнаружили, что RAPL может дообучать эти политики, используя в 5 раз меньше реальных данных о предпочтениях людей, делая первый шаг к минимизации требований к человеческой обратной связи при максимизации согласования политик визуомоторного робота.

Гипотеза представления фрейма: Интерпретируемость много-токенных LLM и генерация текста с учетом концепций

Интерпретируемость является ключевой проблемой в формировании доверия к большим языковым моделям (LLM), которая вытекает из сложности извлечения логики из параметров модели. Мы представляем Гипотезу Рамочной Репрезентации, теоретически обоснованную структуру, основанную на Гипотезе Линейной Репрезентации (LRH) для интерпретации и управления LLM, моделируя многотокенные слова. Предыдущие исследования исследовали LRH для соединения репрезентаций LLM с лингвистическими концепциями, но были ограничены анализом однотокенных слов. Поскольку большинство слов состоит из нескольких токенов, мы расширяем LRH для многотокенных слов, что позволяет использовать ее на любых текстовых данных с тысячами концепций. С этой целью мы предлагаем интерпретировать слова как рамки, упорядоченные последовательности векторов, которые лучше отражают отношения токенов и слов. Затем концепции могут быть представлены как среднее значение рамок слов, разделяющих общую концепцию. Мы демонстрируем эти инструменты через Декодирование, Ориентированное на Концепции Top-k, которое может интуитивно направлять генерацию текста, используя выбранные концепции. Мы проверяем данные идеи на моделях Llama 3.1, Gemma 2 и Phi 3, демонстрируя гендерные и языковые предвзятости, выявляя вредоносный контент, но также проявляя потенциал их исправления, что приводит к более безопасным и прозрачным LLM. Код доступен по адресу https://github.com/phvv-me/frame-representation-hypothesis.git

Divot: Диффузионный Токенизатор Видео для Понимания и Генерации

В последние годы наблюдается значительный рост интереса к унификации понимания и генерации изображений в крупных языковых моделях (LLM). Этот растущий интерес побудил нас изучить возможность расширить эту унификацию на видео. Основная проблема заключается в разработке универсального видео-токенизатора, который захватывает как пространственные характеристики, так и временную динамику видео для получения представлений для LLM, которые могут быть далее декодированы в реалистичные видеоклипы для генерации видео. В этой работе мы представляем Divot, видео-токенизатор на основе диффузии, который использует процесс диффузии для самообучающегося представления видео. Мы предполагаем, что если модель диффузии видео может эффективно удалять шум из видеоклипов, принимая особенности видео-токенизатора в качестве условия, то токенизатор успешно захватывает устойчивую пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути функционирует как детокенизатор, декодируя видео из их представлений. Опираясь на токенизатор Divot, мы представляем Divot-Vicuna через авторегрессию видео в текст и генерацию текста в видео, моделируя распределения непрерывных значений особенностей Divot с помощью модели гауссовской смеси. Экспериментальные результаты демонстрируют, что наш видео-токенизатор на основе диффузии, когда он интегрирован с предобученной LLM, достигает конкурентоспособной производительности по различным бенчмаркам понимания и генерации видео. Настроенный на инструкции Divot-Vicuna также преуспевает в видео-сказательствах, создавая переплетенные нарративы и соответствующие видео.

Структурированные 3D латенты для масштабируемой и универсальной генерации 3D

Мы представляем новый метод 3D-генерации для создания универсальных и высококачественных 3D-активов. Краеугольным камнем является единое представление Structured LATent (SLAT), которое позволяет декодировать в разные выходные форматы, такие как Radiance Fields, 3D Гауссианы и сетки. Это достигается путем интеграции редко населенной 3D-сетки с плотными многосортовыми визуальными признаками, извлеченными из мощной модели основного зрения, всесторонне захватывающими как структурную (геометрическую), так и текстурную (внешний вид) информацию, сохраняя при этом гибкость во время декодирования. Мы используем ректифицированные трансформаторы потока, настроенные на SLAT, в качестве наших моделей 3D-генерации и обучаем модели с количеством параметров до 2 миллиардов на большом наборе данных 3D-активов из 500 тысяч разнообразных объектов. Наша модель генерирует высококачественные результаты с текстовыми или изображенческими условиями, значительно превосходя существующие методы, в том числе недавние, на аналогичных масштабах. Мы демонстрируем гибкий выбор выходного формата и возможности локального 3D-редактирования, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

Дискриминативная дообучаемость больших моделях зрения и языка (LVLM)

Контрастно обученные модели зрения и языка (VLM), такие как CLIP, стали де-факто подходом для обучения предствления зрения и языка с учетом различий. Однако у этих моделей ограниченное понимание языка, которое часто проявляется в поведении «мешка слов». В то же время крупные модели зрения и языка (LVLM), которые комбинируют кодировщики зрения с большими языковыми моделями (LLM), показали свою способность к детальному рассуждению на основе зрения и языка, но их авторегрессивная природа делает их менее подходящими для дискриминационных задач. В этой работе мы предлагаем комбинировать «лучшее из обоих миров»: новый подход к обучению для дискриминационной тонкой настройки LVLM, который обеспечивает сильные способности к различению и композиции. В основном, наш подход преобразует генеративную LVLM в дискриминационную, разблокируя ее возможности для мощного различения изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную обучающую/оптимизационную структуру, которая использует пары изображений и текста переменной длины и тонкости для обучения модели с учетом контрастной потери и потерь предсказания следующего токена. Это сопровождается абляционными исследованиями, которые обосновывают необходимость компонентов нашей структуры. (2) Эффективный метод адаптации параметров с использованием комбинации мягкого запроса и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями подобными CLIP схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные улучшения в композиционности.

Video-3D LLM: Понимание 3D-сцен с помощью видео-репрезентаций

Быстрое развитие многомодальных больших языковых моделей (MLLM) значительно повлияло на различные многомодальные задачи. Однако эти модели сталкиваются с трудностями в задачах, которые требуют пространственного понимания в 3D-средах. Были предприняты усилия по улучшению MLLM, такие как внедрение признаков облака точек, однако остается значительный разрыв между изученными моделями представлениями и врожденной сложностью 3D-сцен. Это несоответствие в значительной степени обусловлено обучением MLLM на преимущественно 2D-данных, что ограничивает их эффективность в понимании 3D-пространств. Чтобы решить эту проблему, в данной работе мы предлагаем новую универсальную модель, т.е. Video-3D LLM, для понимания 3D-сцен. Рассматривая 3D-сцены как динамические видео и внедряя 3D-кодирование позиций в эти представления, наша Video-3D LLM более точно согласовывает представления видео с реальными пространственными контекстами. Кроме того, мы реализовали технику максимального охвата выборки для оптимизации баланса между вычислительными затратами и эффективностью производительности. Обширные эксперименты показывают, что наша модель достигает передового уровня производительности на нескольких эталонах понимания 3D-сцен, включая ScanRefer, Multi3DRefer, Scan2Cap, ScanQA и SQA3D.

AlphaTablets: Новая генерация представления 3D-плоскостей для реконструкции из монокулярных видео

Мы представляем AlphaTablets, новаторское и общее представление 3D-плоскостей, которое характеризуется непрерывной 3D-поверхностью и точным delineation границ. Представляя 3D-плоскости в виде прямоугольников с альфа-каналами, AlphaTablets объединяют преимущества современных 2D и 3D представлений плоскостей, обеспечивая точное, последовательное и гибкое моделирование 3D-плоскостей. Мы выводим дифференцируемую растеризацию на основе AlphaTablets, чтобы эффективно отображать 3D-плоскости в изображения, и предлагаем новую схему снизу-вверх для 3D-планарной реконструкции из одноокулярных видео. Начав с 2D суперпикселей и геометрических подсказок от предварительно обученных моделей, мы инициализируем 3D-плоскости как AlphaTablets и оптимизируем их с помощью дифференцируемой рендеринга. Вводится эффективная схема слияния для облегчения роста и уточнения AlphaTablets. Через итеративную оптимизацию и слияние мы восстанавливаем полные и точные 3D-плоскости с твердыми поверхностями и четкими границами. Обширные эксперименты на наборе данных ScanNet демонстрируют наилучшие характеристики в 3D-планарной реконструкции, подчеркивая великий потенциал AlphaTablets как общего представления 3D-плоскости для различных приложений. Страница проекта доступна по адресу: https://hyzcluster.github.io/alphatablets

Факторизованная визуальная токенизация и генерация

Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на базе трансформеров превосходно справляться с генерацией изображений. Несмотря на их успех, токенизаторы на основе векторного квантования (VQ), такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченных размеров словаря. Простое расширение кодбука часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованное Квантование (FQ), новый подход, который оживляет токенизаторы на основе VQ, разлагая большой кодбук на несколько независимых подкодбуков. Это разложение уменьшает сложность поиска в больших кодбуках, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы каждый подкодбук захватывал различную и дополняющую информацию, мы предлагаем регуляризацию разъединения, которая явно снижает избыточность, способствуя разнообразию среди подкодбуков. Более того, мы интегрируем обучение представлений в процесс обучения, используя предобученные модели видения, такие как CLIP и DINO, для придания семантической насыщенности изучаемым представлениям. Эта конструкция обеспечивает, что наш токенизатор захватывает разнообразные семантические уровни, что приводит к более выразительным и разъединенным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовых результатов. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для автопрогрессивной генерации изображений. [Ссылка на проект](https://showlab.github.io/FQGAN)

Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Галлюцинации в крупных языковых моделях являются распространенной проблемой, однако механизмы, лежащие в основе того, будут ли модели галлюцинировать, плохо поняты, что ограничивает нашу способность решать эту проблему. Используя разреженные автокодировщики как инструмент интерпретации, мы обнаруживаем, что ключевой частью этих механизмов является распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, узнает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это предполагает, что модели могут обладать самоосведомленностью: внутренними представлениями о собственных возможностях. Эти направления имеют причинно-следственное значение: они способны направлять модель на отказ отвечать на вопросы о известных сущностях или на галлюцинирование атрибутов неизвестных сущностей, когда она в противном случае отказалась бы. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинно-следственное влияние на поведение модели чата, отказываясь отвечать, что предполагает, что дообучение чата переиспользовало этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание последующих голов, которые обычно перемещают атрибуты сущностей к последнему токену.

DINO-X: Объединённая модель для открытого мира объектного распознавания и понимания

В данной статье мы представляем DINO-X, унифицированную модель видения, ориентированную на объекты, разработанную IDEA Research, которая на данный момент показывает лучшие результаты в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодера-декодера на базе трансформера, что и Grounding DINO 1.5, для создания объектного уровня представления для понимания объектов в открытом мире. Чтобы облегчить обнаружение объектов с длинными хвостами, DINO-X расширяет свои входные опции, поддерживая текстовые подсказки, визуальные подсказки и индивидуальные подсказки. С такими гибкими опциями подсказок, мы разработали универсальную объектную подсказку для поддержки обнаружения объектов без подсказок в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователем каких-либо подсказок. Для улучшения основных возможностей модели по привязке к объектам, мы создали крупномасштабный набор данных, содержащий более 100 миллионов высококачественных примеров привязки, известный как Grounding-100M, для продвижения в области обнаружения объектов с открытым словарём. Предварительное обучение на таком крупномасштабном наборе данных привязки приводит к созданию фундаментального объектного представления, что позволяет DINO-X интегрировать множество головок восприятия для одновременной поддержки различных задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, описание объектов, объектно-ориентированные вопросно-ответные системы и т.д. Экспериментальные результаты демонстрируют превосходные показатели DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на тестах COCO, LVIS-minival и LVIS-val для нулевого шота в обнаружении объектов соответственно. Отметим, что она получает 63.3 AP и 56.5 AP на редких классах LVIS-minival и LVIS-val, оба результата улучшают предыдущие лучшие показатели на 5.8 AP. Такие результаты подчеркивают значительно улучшенную способность модели к распознаванию объектов с длинными хвостами.

Видео Гауссово Разбрызгивание (VeGaS): Новый Подход к Обработке Видео

Неявные нейронные представления (INRs) используют нейронные сети для аппроксимации дискретных данных в виде непрерывных функций. В контексте видеоданных такие модели могут быть использованы для преобразования координат расположения пикселей вместе со временем (или индексами) появления кадра в значения RGB цветов. Хотя INRs способствуют эффективному сжатию, они не подходят для редактирования. Одним из возможных решений является использование модели на основе 3D Гауссовского распыления (3DGS), такой как Видео Гауссовое Представление (VGR), которое способно кодировать видео в виде множества 3D Гауссиан и применяться для множества операций обработки видео, включая редактирование. Тем не менее, в этом случае возможности изменения ограничены небольшим набором базовых преобразований. Для решения этой проблемы мы представляем модель Видео Гауссовского Распыления (VeGaS), которая позволяет осуществлять реалистичные изменения видеоданных. Для создания VeGaS мы предлагаем новую семью распределений Сложенных-Гауссиан, разработанных для захвата нелинейной динамики в видеопотоке и моделирования последовательных кадров с помощью 2D Гауссиан, полученных как соответствующие условные распределения. Наши эксперименты показывают, что VeGaS превосходит современные решения в задачах восстановления кадров и позволяет реалистично модифицировать видеоданные. Код доступен по ссылке: https://github.com/gmum/VeGaS.

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

Семантический центр: как языковые модели объединяют смыслы через языки и модальности

Современные языковые модели могут обрабатывать входные данные на различных языках и в различных модальностях. Мы предполагаем, что модели приобретают эту способность через обучение на общем пространстве представлений для разнородных типов данных (например, различные языки и модальности), которое размещает семантически похожие входные данные рядом друг с другом, даже если они принадлежат к разным модальностям или языкам. Мы называем это гипотезой семантического хаба, следуя модели "хаб-и-спицы" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "хаб", который интегрирует информацию из различных модальностно-специфических "спиц" областей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных слоях, и что это пространство можно интерпретировать с использованием доминирующего языка предобучения модели через логит-линзу. Эта тенденция распространяется и на другие типы данных, включая арифметические выражения, код и визуальные/аудиальные входные данные. Вмешательства в общее пространство представлений в одном типе данных также предсказуемо влияют на выходные данные модели в других типах данных, что предполагает, что это общее пространство представлений не является просто рудиментарным побочным продуктом масштабного обучения на обширных данных, а активно используется моделью при обработке входных данных.

IGOR: Объединяя миры людей и роботов через латентные действия

Мы представляем Представления Целевого Образа (IGOR), цель которых - научиться единому, семантически согласованному пространству действий для людей и различных роботов. Благодаря этому унифицированному скрытому пространству действий, IGOR позволяет передавать знания между масштабными данными активности роботов и людей. Мы достигаем этого, сжимая визуальные изменения между начальным изображением и его конечным состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных интернет-маштаба. Это унифицированное скрытое пространство действий способствует обучению базовой политики и моделей мира для широкого спектра задач, выполняемых как роботами, так и людьми. Мы демонстрируем следующее: 1) **IGOR обучает семантически согласованное пространство действий для людей и роботов**, характеризуя различные возможные движения объектов, представляющие знания о физическом взаимодействии; 2) **IGOR может "переносить" движения объекта из одного видео в другие**, даже между человеком и роботами, используя совместно модель скрытых действий и модель мира; 3) **IGOR может научиться согласовывать скрытые действия с естественным языком через модель базовой политики** и интегрировать скрытые действия с моделью низкоуровневой политики для достижения эффективного управления роботами. Мы считаем, что IGOR открывает новые возможности для передачи знаний и управления от человека к роботу.

Пространство вложений слов: от теории к практике

Пространство вложений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задач. Мы указываем, что большинство подходов к моделированию, исправлению и измерению симметрии пространства вложений неявно предполагают, что частоты слов равномерны; на самом деле, частоты слов следуют крайне неравномерному распределению, известному как закон Ципфа. Удивительно, но простое применение взвешенного по эмпирической частоте слов PCA отбеливания, соответствующего закону Ципфа, значительно улучшает производительность задач, превосходя установленные базовые показатели. С теоретической точки зрения, как наш подход, так и существующие методы можно четко категоризировать: представления слов распределены в соответствии с экспоненциальной семьей с либо равномерными, либо цепфиановыми базовыми мерами. Приняв последний подход, мы можем естественным образом выделить информативные слова с низкой частотой с точки зрения их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также с точки зрения функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и языковые модели без головы, работают хорошо именно потому, что их словесные вложения закодировали эмпирическую частоту слов в лежащую в основе вероятностную модель.

Изучение видео представлений без использования натуральных видео

В данной статье мы показываем, что полезные видеопредставления могут быть изучены на основе синтетических видео и естественных изображений, без использования естественных видео в процессе обучения. Мы предлагаем последовательность видеодатасетов, синтезированных простыми генеративными процессами, которые моделируют расширяющийся набор свойств естественного видео (например, движение, ускорение и трансформации формы). Производительность видеомоделей, предварительно обученных на этих сгенерированных датасетах, постепенно улучшается по мере продвижения датасета. Модель VideoMAE, предварительно обученная на наших синтетических видео, сокращает разрыв в производительности на 97.2% на классификации действий UCF101 между обучением с нуля и самостоятельным предварительным обучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение кадрирования статических изображений на этапе предварительного обучения приводит к результатам, сопоставимым с предварительным обучением на UCF101, и превосходит модель, предварительно обученную на UCF101, на 11 из 14 внешних по отношению к UCF101-P датасетах. Анализируя низкоуровневые свойства датасетов, мы выявляем корреляции между разнообразием кадров, схожестью кадров с естественными данными и производительностью на следующих этапах. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курации видеоданных для предварительного обучения.