고해상도 이미지 생성 분야의 문제 : 모델 학습 뿐만 아니라 추론 과정에서도 많은 계산 자원 필요
아이디어 : 연산을 픽셀 공간이 아닌 잠재 공간에서 수행
![[https://ffighting.net/deep-learning-paper-review/diffusion-model/stable-diffusion/]](attachment:cf23f174-3313-41cd-b21d-e1770a2ce411:image.png)
[https://ffighting.net/deep-learning-paper-review/diffusion-model/stable-diffusion/]
![[https://cvpr2022-tutorial-diffusion-models.github.io/]](attachment:4ed1282e-b8b9-445b-addf-156f5e568dd7:image.png)
[https://cvpr2022-tutorial-diffusion-models.github.io/]
VQ-VAE에서의 인코더에 GAN의 목적함수를 도입함으로써 이미지가 흐릿하게 생성되던 VAE의 단점을 보완하였다.
![[Kernel Academy - Generation]](attachment:d5595fce-73bf-4748-be36-6445682d0844:image.png)
[Kernel Academy - Generation]
Diffusion model의 입력값이 인코더의 출력값이라는 점 외에는 모두 동일하다.
![[Kernel Academy - Generation]](attachment:955b43ed-094b-4448-8606-80e712cfe7ae:image.png)
[Kernel Academy - Generation]
Decoding 과정은 학습에서는 불필요하다. ⇒ 효율적인 학습 가능.