실제 데이터의 분포 $P_{data}$ 와 모델의 분포 $P_{\theta}$ 를 가깝게 학습해야 한다.
⇒ KL divergence 를 최소화하면 된다.
🔸KL divergence (Kullback-Leibler divergence)
그러나 데이터의 정확한 분포를 알 수 없기 때문에 KL divergence를 바로 적용하는 것은 어렵다. 따라서 생성 모델들은 이런 문제를 해결함으로써 데이터의 분포를 추정한다.