◾DPM (Diffusion Probabilistic Model)

확산? 물질(픽셀 값)이 섞이고 번져가다가 마지막에는 균일한 농도(노이즈)가 되는 현상.
확산 확률
- 확산 현상을 시간에 따라 확률적으로 모델링하는 것
- 마르코프 가정을 따른다. → $P(S_{t+1}=s'|S_t=s) = P(S_{t+1}=s'|S_0=s_0,S_1=s_1,\cdots,S_t=s)$

🔸구조

[https://cvpr2022-tutorial-diffusion-models.github.io/]

정방향 확산 (Forward Diffusion Process) : 데이터 → 노이즈 (고정. 학습이 이루어지지 않음.)
역방향 확산 (Reverse Diffusion Process) : 노이즈 → 데이터 (학습)

🔸Forward Diffusion

T = 노이즈를 더하는 시점, 이미지 파괴 과정.
T를 아주 크게 하여 점진적으로 노이즈를 추가하는 과정이다. 노이즈를 점진적으로 추가해야 reverse diffusion 과정에서 올바르게 노이즈를 제거하는 방법을 학습할 수 있다.
노이즈 추가

$$ q(x_t|x_{t-1})=N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t I) $$
- 이전 시점(t-1)의 이미지에 등방성 가우시안 노이즈를 추가.
완전히 노이즈가 추가된 이미지는 결국 가우시안 분포를 따르게 된다.

[Denoising Diffusion-based Generative Modeling: Foundations and Applications]

🔸Reverse Diffusion

이미지 생성 과정 = 노이즈를 제거하는 과정
- 그러나 이 과정인 $q(x_{t-1}|x_t)$는 계산이 불가하다.
- $\beta_t$ 가 작을 때 정규분포로 근사 가능하다. ⇒ 이것 때문에 forward에서 beta를 작게 설정해야 하기 때문에 T가 커진다.
  
  [Denoising Diffusion-based Generative Modeling: Foundations and Applications]
정규분포 근사

$$ p_\theta(x_{t-1}|x_t)=N(x_{t-1};\mu_\theta(x_t,t),\sigma_t^2 I)\approx q(x_{t-1}|x_t) $$
- $x_t$(현재 이미지, 노이즈 이미지) 에서 어떤 정규분포( $\mu_\theta,\sigma_t$ )를 빼야 노이즈를 걷어낸 $x_{t-1}$ 를 얻을 수 있는지 구해야 한다.
- $\mu_\theta(x_t,t)$ : 학습의 대상
  - 분산인 $\sigma_t$ 는 forward diffusion 과정에서 미리 정의되었음으로 학습의 대상이 아니다. $p_\theta$ 모델은 정규분포의 평균만 추정한다.

🔸Objective function

VAE와 마찬가지로 ELBO를 정의하고 Log Likelihood의 하한을 최대화한다.

$$ L(\theta;x_0)=\mathbb{E}{q(x{1:T}|x_0)}\Bigg[ KL(q(x_T|x_0)||p(x_T)) + \sum_{t=2}^T KL(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}||x_t))-\log p_\theta(x_0|x_1) \Bigg] $$