fitting , training : the steps of capturing patterns from data. 데이터로부터 패턴을 찾아내는 과정
training data : the data which is used to fit the model. 패턴을 찾아내기 위해 사용되는 데이터
feature data : the columns that are inputted into our model. 모델 학습에 사용되는 데이터 컬럼들, 예측에 필요한 컬럼들 (독립변수)
label data, prediction target : the column we want to predict. feature에 대한 정답, 출력 변수를 의미, 즉 모델이 예측하고자 하는 대상 데이터. (종속변수)
ex) 악성 종양 환자 판단 이진 분류에서의 feature와 label feature : 환자의 나이, 종양의 크기, 종양의 모양 label : 0(음성) or 1(양성)
imbalanced data : 불균형한 데이터, 특정 값이 많거나 이상치 때문에 분포도가 한쪽으로 치우져진 데이터
label noise : 같은 input에 대해 다른 label을 갖는 데이터셋을 학습하는 모델은 잘 학습하지 못한다. 함수의 정의에 부적합하기 때문.
하이퍼 파라미터 vs 파라미터
Hyperparameter | Parameter | |
---|---|---|
설명 | 초매개변수 | |
모델 학습 과정에 반영되는 값학습 시작 전에 미리 조정 | 매개변수 | |
모델 내부에서 결정되는 변수 | ||
데이터로부터 학습 또는 예측되는 값 | ||
예시 | 학습률손실, 함수배치, 사이즈 | 정규분포의 평균, 표준편차, |
선형 회귀 계수, | ||
가중치, 편향 | ||
직접 조정 가능 | O | X |
과적합 Overfitting : 모델이 학습 데이터에 지나치게 특화되어 있는 상태를 의미한다.