◾Weight Initialization

🔻Weight initialization의 필요성 ⭐

모델의 층이 깊어질수록 활성화 함수 이후 데이터의 분포가 한 쪽으로 쏠릴 수 있다.

[kernel academy - DL Basic]
- 빨간 상자로 표시된 부분 초기 레이어의 출력값이 나타나면 이후 출력에도 영향을 미치고 backpropagation 시에도 활성화 함수 출력값이 반영되기 때문에 vanishing gradient 문제를 야기할 수 있다.
잘못된 가중치 최적화를 Plateau(고원) 지점에서 학습을 시작하게 할 수 있다.

[kernel academy - DL Basic]

🔻Weight Init 방법

🔸Bad Cases

🔸Xavier 초기화

표준정규분포를 사용하는데 표준편차의 값을 $\sqrt{\frac{1}{n}}$로 한다.
- 구현: 표준정규분포로 가중치를 초기화하고, 이전 layer의 노드 개수(=n)를 구한 후 $\sqrt{\frac{1}{n}}$ 를 곱해 스케일링한다.
  
  [kernel academy - DL Basic]
Sigmoid, tanh 활성화 함수와 사용했을 때 효과가 좋다.

🔸He 초기화 (Kaiming Uniform)

마찬가지로 표준정규분포를 사용하는데 표준편차의 값을 $\sqrt{\frac{2}{n}}$로 한다.
- 구현: 표준정규분포로 가중치를 초기화하고, 이전 layer의 노드 개수(=n)를 구한 후 $\sqrt{\frac{2}{n}}$ 를 곱해 스케일링한다.
ReLU 활성화 함수와 사용했을 때 효과가 좋다.

But Xavier, He 초기화 둘 다 실험해봐야 한다. 항상 어떤 활성화 함수에서 어떤 방법이 좋은 것은 아니다.

pytorch에서 모델의 가중치를 원하는 방법으로 초기화하는 방법

◾Regularization

🔻Weight Decay ⭐

가중치 값이 크면 역전파 시 미분값이 너무 커지는 gradient exploding 문제가 발생할 수 있고, 또 뉴런의 출력값이 너무 커져서 sigmoid, tanh와 같은 활성화 함수의 포화 영역(saturation)에 들어가 미분값이 0에 가까워지는 vanishing gradient 문제가 발생할 수 있다.

⇒ 가중치의 값을 작게 유지하기 위해 **손실함수에 penalty term(규제항)**을 두는 것이 좋다.
penalty term

$$ L\leftarrow L+\frac{\lambda}{2}\sum W^2 $$
- $\lambda$ : 가중치 감쇠 계수.
- W^2 = L2-loss, W = L1-loss