Ай Дайджест - категория ablation

Я не знаю: явное моделирование неопределенности с помощью токена [IDK]

Большие языковые модели известны тем, что они захватывают знания о реальном мире, что позволяет им преуспевать во многих последующих задачах. Несмотря на недавние достижения, эти модели все еще подвержены тому, что обычно называют «галлюцинациями», что приводит к тому, что они выдают нежелательный и фактически неправильный текст. В этой работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перемещает массу вероятностей к токену [IDK] для неправильных предсказаний. Этот подход позволяет модели явно выражать неопределенность в своих выходных данных. Мы оцениваем наш предложенный метод на нескольких архитектурах модели и фактических задачах. Мы обнаруживаем, что модели, обученные с нашим методом, способны выражать неопределенность в местах, где ранее они допускали ошибки, при этом теряя только небольшую часть закодированных знаний. Кроме того, мы проводим обширные аблационные исследования нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.

2024-12-12models architecture uncertainty

SelfSplat: Поза-свободное и 3D-природное обобщаемое 3D-гауссовое сплошение

Мы предлагаем SelfSplat, новую модель 3D Gaussian Splatting, разработанную для выполнения реконструкции 3D без учета позы и без 3D-приорных данных из многоснятых изображений без позы. Эти условия по своей природе плохо обусловлены из-за отсутствия данных истинного значения, изученной геометрической информации и необходимости достижения точной 3D-реконструкции без дополнительной настройки, что усложняет задачу достижения высококачественных результатов с помощью традиционных методов. Наша модель преодолевает эти проблемы, эффективно интегрируя явные 3D-репрезентации с техниками самообучаемой оценки глубины и позы, что приводит к взаимным улучшениям как в точности позы, так и в качестве 3D-реконструкции. Более того, мы внедрили сеть оценки позы, учитывающую соответствие, и модуль уточнения глубины, чтобы повысить согласованность геометрии между ракурсами, обеспечивая более точные и стабильные 3D-реконструкции. Чтобы продемонстрировать эффективность нашего метода, мы провели его оценку на крупных реальных наборах данных, включая RealEstate10K, ACID и DL3DV. SelfSplat достигает превосходных результатов по сравнению с предыдущими современными методами как в качестве внешнего вида, так и в качестве геометрии, также демонстрируя сильные возможности обобщения на разные наборы данных. Обширные исследования абляции и анализ также подтверждают эффективность наших предложенных методов. Код и предварительно обученные модели доступны по адресу https://gynjn.github.io/selfsplat/.

2024-11-29generalization geometric models

Исследование причинно-следственных связей в языковых моделях: Генерация контрфактуальных строк

Понимание и манипулирование механизмами причинного генерации в языковых моделях является ключевым для контроля их поведения. Предыдущие исследования в основном полагались на методы, такие как хирургическое вмешательство в представления — например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями — для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно рассмотреть контрафактуальные ситуации — например, как бы выглядело предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрафактуальное рассуждение концептуально отличается от вмешательств, как это выражено в причинной иерархии Пирла. Основываясь на этом наблюдении, мы предлагаем фреймворк для генерации истинных строковых контрафактуалов путем переформулирования языковых моделей как Обобщенных Структурно-Уравненных Моделей с использованием трюка Гамбела-макс. Это позволяет нам моделировать совместное распределение над исходными строками и их контрафактуалами, возникающими из одной и той же реализации шума выборки. Мы разработали алгоритм на основе ретроспективного семплирования Гамбела, который позволяет нам выводить скрытые переменные шума и генерировать контрафактуалы наблюдаемых строк. Наши эксперименты показывают, что подход производит значимые контрафактуалы, в то же время демонстрируя, что обычно используемые методы вмешательства имеют значительные нежелательные побочные эффекты.

2024-11-12causality sampling intervention