◾신경망의 학습

🔻데이터 주도 학습

[빨간색이 사람이 개입하지 않는 부분]

[빨간색이 사람이 개입하지 않는 부분]

머신러닝의 단점은 결국 사람이 개입하여 데이터에 대한 패턴을 찾아야 한다는 점이다.
- 모아진 데이터에 대한 규칙은 기계가 찾아주지만, 이를 위해 사람은 **데이터의 특징(feature)**을 잘 찾아내야 한다.
신경망은 데이터를 있는 그대로 학습하여 직접 데이터의 주요한 특징까지도 찾아낸다.

◾손실 함수 loss function

손실 함수 (loss function) : 최적의 매개변수(가중치, 편향 등)를 탐색하기 위해 사용하는 지표
딥러닝 모델은 손실 함수가 가장 최소가 되도록 매개변수를 조정해 나간다.

🔻손실함수

🔸손실함수 구조

손실함수에서 각 구성요소의 의미
- 입력 1 = 모델의 출력값 → $\hat{y}=W\mathbf{x}$
  - 모델의 출력값을 결정하는 모델 파라미터 $\theta$ 가 사실상 손실함수의 파라미터이다.
- 입력 2 = 정답 → $y$
- 출력 = 손실값 = loss
손실함수가 $L(\hat{y},y)=L(W,\mathbf{x},y)$ 가 되는 꼴. $\frac{\partial L}{\partial W}$로 파라미터의 변화에 따른 손실값 변화를 파악해 W를 업데이트하는 것이다.

🔸손실 함수의 기본 가정

학습 데이터 샘플에 대한 총 손실은 각 데이터 샘플에 대한 손실의 합과 같다. ⇒ 각 샘플별 손실은 덧셈으로 구성되어야 한다.

$$ C=\frac{1}{2n}\sum_x||y(x)-a^L(x)||^2 $$
- $y(x)$ : 정답 라벨
- $a^L(x)$ : 모델 출력
⇒ $\frac{\partial C}{\partial w}=\sum_x \frac{\partial Cx}{\partial w}$ 이기 때문에 덧셈으로 구성된 손실함수에서는 각 데이터 샘플의 미분에 집중할 수 있다.
각 학습 데이터 샘플에 대한 손실은 $a^L$(모델)에 대한 함수이다. 즉, 모델의 최종 출력에 대해서만 손실을 계산해야 한다.

$$ C_x = \frac{1}{2}||y-a^L||^2 $$

🔻대표적인 손실함수