모델의 층이 깊어질수록 활성화 함수 이후 데이터의 분포가 한 쪽으로 쏠릴 수 있다.
[kernel academy - DL Basic]
잘못된 가중치 최적화를 Plateau(고원) 지점에서 학습을 시작하게 할 수 있다.
[kernel academy - DL Basic]
표준정규분포를 사용하는데 표준편차의 값을 $\sqrt{\frac{1}{n}}$로 한다.
구현: 표준정규분포로 가중치를 초기화하고, 이전 layer의 노드 개수(=n)를 구한 후 $\sqrt{\frac{1}{n}}$ 를 곱해 스케일링한다.
[kernel academy - DL Basic]
Sigmoid, tanh 활성화 함수와 사용했을 때 효과가 좋다.
But Xavier, He 초기화 둘 다 실험해봐야 한다. 항상 어떤 활성화 함수에서 어떤 방법이 좋은 것은 아니다.
가중치 값이 크면 역전파 시 미분값이 너무 커지는 gradient exploding 문제가 발생할 수 있고, 또 뉴런의 출력값이 너무 커져서 sigmoid, tanh와 같은 활성화 함수의 포화 영역(saturation)에 들어가 미분값이 0에 가까워지는 vanishing gradient 문제가 발생할 수 있다.
⇒ 가중치의 값을 작게 유지하기 위해 **손실함수에 penalty term(규제항)**을 두는 것이 좋다.
penalty term
$$ L\leftarrow L+\frac{\lambda}{2}\sum W^2 $$