◾잠재 공간의 필요성

고해상도 이미지 생성 분야의 문제 : 모델 학습 뿐만 아니라 추론 과정에서도 많은 계산 자원 필요
아이디어 : 연산을 픽셀 공간이 아닌 잠재 공간에서 수행
- 기존의 확산 모델들은 고차원의 이미지 픽셀 공간에서 노이즈, 디노이징 연산을 반복함.
- 이미지의 정보를 저차원의 잠재 공간에서 표현할 수 있고, 해당 잠재 공간에서 연산할 수 있다면 계산 복잡도를 감소할 수 있다.
- 정방향, 역방향 확산 과정을 이미지 공간이 아닌 auto encoder의 잠재 공간에서 진행.
[https://ffighting.net/deep-learning-paper-review/diffusion-model/stable-diffusion/]

◾Latent Diffusion Model (=Stable Diffusion)

🔻구조

[https://cvpr2022-tutorial-diffusion-models.github.io/]

[https://cvpr2022-tutorial-diffusion-models.github.io/]

🔸VAE

정방향 확산 과정의 대상이 되는 잠재 표현 z 를 인코딩하도록 학습한다.
- $z$ 는 유의미한 정보들을 보존하기 위해 1차원 벡터가 아닌 이미지와 유사한 차원의 (Channel x Height x Width) 차원을 갖는다. → 이미지의 공간 정보를 더 잘 보존.

🔸Diffusion Model

잠재 표현 z 에 대해 forward, reverse diffusion process를 통해 원래 잠재 표현인 z를 복원하는 과정을 학습한다.

🔸Decoder

Diffusion model이 생성한 잠재 표현을 다시 이미지 픽셀 공간으로 매핑하여 최종 이미지를 출력한다.

🔸VQ-GAN

VQ-VAE에서의 인코더에 GAN의 목적함수를 도입함으로써 이미지가 흐릿하게 생성되던 VAE의 단점을 보완하였다.

[Kernel Academy - Generation]

🔻Training

Diffusion model의 입력값이 인코더의 출력값이라는 점 외에는 모두 동일하다.

[Kernel Academy - Generation]
Decoding 과정은 학습에서는 불필요하다. ⇒ 효율적인 학습 가능.

🔻결과