Ай Дайджест - категория unsupervised

RLZero: Нулевая генерация поведения из языка без обучения

Награды остаются неприемлемым способом определения задач для обучения с подкреплением, так как люди часто не могут предсказать оптимальное поведение для любой данной функции награды, что приводит к плохому дизайну наград и взлому наград. Язык представляет собой привлекательный способ передачи намерений агентам и обхода дизайна наград, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по маркировке. В этой работе мы предлагаем метод полностью неконтролируемой альтернативы grounding языковых инструкций нулевым образом для получения политик. Мы представляем решение, которое принимает форму воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность в нашу целевую область и закрепляет ее за политикой. Модели видео-языка позволяют нам представлять описания задач, которые используют знания о задачах, полученные из видео-текстовых сопоставлений на интернет-уровне. Проблема остается в том, чтобы закрепить эти генерации за политикой. В этой работе мы показываем, что можем достичь политики «язык-в-поведение» нулевым образом, сначала закрепив воображаемые последовательности в реальных наблюдениях неконтролируемого агента RL и используя замкнутое решение для обучения имитации, которое позволяет агенту RL подражать закрепленным наблюдениям. Наш метод, RLZero, является первым, насколько нам известно, кто показывает способности генерации «языка в поведение» нулевым образом без какой-либо надзорности по множеству задач в смоделированных областях. Мы также показываем, что RLZero может генерировать политики нулевым образом из кросс-телесных видео, таких как те, что собираются с YouTube.

2024-12-09learning zero-shot policy

CleanDIFT: Извлечение характеристик диффузии без шума

Внутренние характеристики из крупных предварительно обученных диффузионных моделей недавно были признаны мощными семантическими дескрипторами для широкого спектра задач. Работы, использующие эти характеристики, как правило, требуют добавления шума к изображениям перед передачей их через модель для получения семантических характеристик, так как модели не предлагают наиболее полезные характеристики, когда им предоставляют изображения с небольшим или отсутствующим шумом. Мы показываем, что этот шум имеет критическое влияние на полезность этих характеристик, которое нельзя исправить комбинированием с различными случайными шумами. Мы решаем эту проблему, вводя легкий метод ненадзорной тонкой настройки, который позволяет диффузионным основам предоставлять высококачественные семантические характеристики без шума. Мы показываем, что эти характеристики значительно превосходят предыдущие диффузионные характеристики в широком диапазоне настроек извлечения и downstream-задач, предлагая лучшую производительность, чем даже методы на основе ансамблей, за небольшую часть стоимости.

2024-12-05features noise diffusion

SG-I2V: Самостоятельное управление траекторией в генерации видео из изображений

Методы генерации видео из изображений достигли впечатляющего, фотореалистичного качества. Однако, корректировка конкретных элементов в сгенерированных видео, таких как движение объектов или перемещение камеры, часто представляет собой утомительный процесс проб и ошибок, например, требующий повторной генерации видео с различными случайными семенами. Современные техники решают эту проблему путем тонкой настройки предварительно обученной модели для следования условным сигналам, таким как ограничивающие рамки или траектории точек. Тем не менее, эта процедура тонкой настройки может быть вычислительно затратной и требует наборов данных с аннотированным движением объектов, что может быть сложно получить. В данной работе мы представляем SG-I2V, фреймворк для контролируемой генерации видео из изображений, который является самонаправляемым, предлагая нулевое управление, опираясь исключительно на знания, присутствующие в предварительно обученной модели диффузии изображение-видео, без необходимости в тонкой настройке или внешних знаниях. Наш метод с нулевым обучением превосходит неконтролируемые базовые модели, при этом конкурируя с контролируемыми моделями по качеству изображения и точности движения.

2024-11-08diffusion generation fine-tuning

Самосогласованная Оптимизация Предпочтений: Революция в Обучении Языковых Моделей

Само-согласование, при котором модели учатся улучшать себя без человеческой разметки, является быстро развивающейся областью исследований. Однако существующие методы часто не справляются с улучшением сложных задач мышления из-за трудности в присвоении правильных наград. Ортогональным подходом, который известен своей способностью улучшать точность, является само-согласованность, метод, применяемый на этапе вывода на основе многократной выборки для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию само-согласованности для помощи в обучении моделей. Мы вводим оптимизацию предпочтений само-согласованности (ScPO), которая итеративно обучает модели предпочитать согласованные ответы несогласованным на новых ненадзорных задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с традиционным обучением модели наград на задачах мышления, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинация ScPO со стандартным контролируемым обучением улучшает результаты еще больше. На ZebraLogic, ScPO дообучает Llama-3 8B, делая её превосходящей Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

2024-11-07optimization self-consistency unsupervised