1. Неконтролируемое обучение представлению на основе предварительно обученных диффузионных вероятностных моделей(arXiv)

Автор: Zijian Zhang, Zhou Zhao, Zhijie Lin

Аннотация: Вероятностные модели диффузии (DPM) продемонстрировали высокую способность генерировать образцы изображений высокого качества. Недавно были предложены диффузионные автоэнкодеры (Diff-AE) для изучения DPM для обучения представлению с помощью автокодирования. Их ключевая идея состоит в том, чтобы совместно обучить кодер для обнаружения осмысленных представлений из изображений и условный DPM в качестве декодера для восстановления изображений. Учитывая, что обучение DPM с нуля займет много времени и существует множество предварительно обученных DPM, мы предлагаем \textbf{P}переобученный \textbf{D}PM \textbf{A}uto\textbf{E}ncoding ( \textbf{PDAE}), общий метод адаптации существующих предварительно обученных DPM к декодерам для реконструкции изображений с большей эффективностью обучения и производительностью, чем Diff-AE. В частности, мы обнаружили, что причина того, что предварительно обученные DPM не могут восстановить изображение из его скрытых переменных, связана с потерей информации в прямом процессе, что вызывает разрыв между их предсказанным апостериорным средним значением и истинным. С этой точки зрения метод выборки, управляемый классификатором, можно объяснить как вычисление дополнительного среднего сдвига для заполнения пробела, восстановление потерянной информации о классе в выборках. Это означает, что пробел соответствует потерянной информации изображения, и мы можем восстановить изображение, заполнив пробел. Вдохновившись этим, мы используем обучаемую модель для прогнозирования среднего сдвига в соответствии с закодированным представлением и обучаем ее заполнению как можно большего пробела, таким образом, кодировщик вынужден получать как можно больше информации из изображений, чтобы помочь заполнение. Повторно используя часть сети предварительно обученных DPM и перерабатывая схему взвешивания потерь при диффузии, PDAE может эффективно изучать значимые представления из изображений. Обширные эксперименты демонстрируют эффективность, действенность и гибкость PDAE.

2.DAG: руководство с учетом глубины с вероятностными моделями диффузии с шумоподавлением(arXiv)

Автор: Гённён Ким, Усок Чан, Гюсон Ли, Сусон Хон, Чунён Со, Сын Рён Ким

Аннотация: в последние годы генеративные модели претерпели значительный прогресс благодаря успеху диффузионных моделей. Успех этих моделей часто объясняется использованием в них методов руководства, таких как методы классификатора и методы без классификатора, которые обеспечивают эффективные механизмы для компромисса между точностью и разнообразием. Однако эти методы не способны управлять сгенерированным изображением, чтобы знать его геометрическую конфигурацию, например, глубину, что препятствует применению моделей диффузии к областям, требующим определенного уровня осведомленности о глубине. Чтобы устранить это ограничение, мы предлагаем новый метод руководства для моделей диффузии, который использует информацию о расчетной глубине, полученную из богатых промежуточных представлений моделей диффузии. Для этого мы сначала представляем эффективную по меткам структуру оценки глубины, используя внутренние представления моделей диффузии. На этапе выборки мы используем два метода управления для самообучения сгенерированного изображения с использованием оценочной карты глубины, первый из которых использует псевдомаркировку, а последующий использует предварительную диффузию в области глубины. Эксперименты и обширные исследования абляции демонстрируют эффективность нашего метода в направлении моделей диффузии к созданию геометрически правдоподобных изображений. Страница проекта доступна по адресу https://ku-cvlab.github.io/DAG/

3. Объединение синтеза движения человека и переноса стиля с помощью шумоподавляющих диффузионных вероятностных моделей(arXiv)

Автор: Цзыи Чанг, Эдмунд Дж. К. Финдли, Хаочжэн Чжан, Хуберт П. Х. Шум

Аннотация. Создание реалистичных движений для цифровых людей — основная, но сложная часть компьютерной анимации и игр, поскольку человеческие движения разнообразны по содержанию и богаты стилями. Хотя последние подходы к глубокому обучению добились значительных успехов в этой области, они в основном рассматривают синтез движения и управление стилем как две отдельные проблемы. Это в основном связано с проблемой изучения как содержания движения, которое учитывает поведение между классами, так и стилей, которые эффективно учитывают поведение внутри класса в общем представлении. Чтобы решить эту проблему, мы предлагаем решение вероятностной модели диффузионного шумоподавления для стилизованного синтеза движения. Поскольку диффузионные модели обладают высокой пропускной способностью, обеспечиваемой введением стохастичности, мы можем представить как содержание движения внутри класса, так и поведение стиля внутри класса в одном и том же скрытом виде. Это приводит к интегрированному сквозному обучаемому конвейеру, который облегчает создание оптимального движения и исследование скрытого пространства, связанного со стилем контента. Для достижения высококачественных результатов мы разрабатываем многозадачную архитектуру модели распространения, которая стратегически генерирует аспекты движений человека для локального руководства. Мы также разрабатываем состязательные и физические правила для глобального руководства. Мы демонстрируем превосходную производительность с количественными и качественными результатами и подтверждаем эффективность нашей многозадачной архитектуры.