Ай Дайджест - категория causal

Causal Diffusion: Новый взгляд на генерацию данных

Мы представляем Кausal Diffusion как авторегрессионный (AR) аналог диффузионных моделей. Это фреймворк прогнозирования следующего токена(ов), который удобен как для дискретных, так и для непрерывных модальностей и совместим с существующими моделями предсказания следующего токена, такими как LLaMA и GPT. В то время как недавние работы пытаются объединить диффузионные модели с AR моделями, мы показываем, что введение последовательной факторизации в диффузионную модель может значительно улучшить ее производительность и обеспечить плавный переход между режимами генерации AR и диффузии. Поэтому мы предлагаем CausalFusion - трансформер только декодер, который двуфакторизует данные по последовательным токенам и уровням диффузионного шума, что приводит к достижениям на уровне лучших результатов в бенчмарке генерации ImageNet, одновременно используя преимущество AR для генерации произвольного количества токенов для контекстного вывода. Мы также демонстрируем мультимодальные возможности CausalFusion через совместную модель генерации изображений и создания заголовков, и показываем способность CausalFusion к манипуляциям с изображениями в контексте без обучения. Мы надеемся, что эта работа сможет предоставить сообществу новый взгляд на обучение мультимодальных моделей на дискретных и непрерывных данных.

2024-12-17transformer forecasting multimodal

Понимает ли модель этот объект? Осведомлённость и галлюцинации в языковых моделях

Галлюцинации в крупных языковых моделях являются распространенной проблемой, однако механизмы, лежащие в основе того, будут ли модели галлюцинировать, плохо поняты, что ограничивает нашу способность решать эту проблему. Используя разреженные автокодировщики как инструмент интерпретации, мы обнаруживаем, что ключевой частью этих механизмов является распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, узнает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это предполагает, что модели могут обладать самоосведомленностью: внутренними представлениями о собственных возможностях. Эти направления имеют причинно-следственное значение: они способны направлять модель на отказ отвечать на вопросы о известных сущностях или на галлюцинирование атрибутов неизвестных сущностей, когда она в противном случае отказалась бы. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинно-следственное влияние на поведение модели чата, отказываясь отвечать, что предполагает, что дообучение чата переиспользовало этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание последующих голов, которые обычно перемещают атрибуты сущностей к последнему токену.

2024-11-22autoencoder sparse hallucination

Введение в GPT-BERT: Гибридный подход к языковому моделированию

Мы представляем простой способ объединения моделирования языка с маской и причинного моделирования языка. Эта гибридная обучающая цель приводит к созданию модели, которая сочетает в себе сильные стороны обоих парадигм моделирования в едином трансформере: GPT-BERT можно использовать прозрачно, как любую стандартную причинную или модель языка с маской. Мы тестируем процесс предварительного обучения, который обеспечивает такое гибкое поведение, на BabyLM Challenge 2024. Результаты показывают, что гибридное предварительное обучение превосходит модели, использующие только маскированное или только причинное моделирование. Мы открыто публикуем модели, обучающие корпуса и код.

2024-11-04transformer pretraining masked