고해상도 이미지 생성 분야의 문제 : 모델 학습 뿐만 아니라 추론 과정에서도 많은 계산 자원 필요
아이디어 : 연산을 픽셀 공간이 아닌 잠재 공간에서 수행
[https://ffighting.net/deep-learning-paper-review/diffusion-model/stable-diffusion/]
[https://cvpr2022-tutorial-diffusion-models.github.io/]
VQ-VAE에서의 인코더에 GAN의 목적함수를 도입함으로써 이미지가 흐릿하게 생성되던 VAE의 단점을 보완하였다.
[Kernel Academy - Generation]
Diffusion model의 입력값이 인코더의 출력값이라는 점 외에는 모두 동일하다.
[Kernel Academy - Generation]
Decoding 과정은 학습에서는 불필요하다. ⇒ 효율적인 학습 가능.