데이터 인코딩, 임베딩

🔻데이터 인코딩

간단하게 레이블 데이터 하나와 숫자 하나를 문자 순서대로 대응시키는 인코딩 방식이다.
- 레이블 클래스값들을 오름차순으로 나열한 후, 순서대롤 숫자 0부터 대응시킨다.
[파이썬 머신러닝 완벽 가이드 p.118]
```
# 그림 설명
label = ['Tv','냉장고','전자렌지','컴퓨터','선풍기','믹서']
# 레이블 인코딩 결과
label_encoding = [0,1,2,3,4,5]
```
- sklearn.preprocessing 모듈의 LabelEncoder 클래스로 편리하게 인코딩할 수 있다.
단점 : 레이블 값이 모델 예측에 영향을 줄 수 있는 ML알고리즘에는 레이블 인코딩을 사용하면 안 된다. >> Tree 계열의 알고리즘에 주로 사용

해당 카테고리의 빈도수를 기반으로 Encoding을 한다. → 빈도수에 해당하는 숫자를 label로 부여한다.
- 빈도수 = 중요도 라는 정보를 유지하여 학습 가능
단점: 빈도수가 같은 카테고리는 동일한 label을 갖게 되어 구분할 수 없어진다.

해당 카테고리에 대한 종속 변수(target)의 평균값으로 인코딩하는 방식이다. → 범주형 변수가 수치형으로 변환됨.
- 종속 변수와의 관련성을 수치화할 수 있음.
Data-Leakage, Overfitting, 종속 변수의 이상치 등 많은 주의사항을 고려해야 한다.
Data-Leakage 방지
- target mean값은 validation data의 정보를 반영하지 않도록 해야 한다. 오직 train dataset에서만 target encoding을 진행.
Overfitting 방지
1. Smoothing
  - category_encoders.TargetEncoder에 smoothing 옵션 존재
2. Fold
  - train dataset을 또다시 K-Fold로 재구성하여 각 Fold별로 다르게 Target Encoding한다.
    
    → 더 다양한 target encoding값으로 학습
  - 근데 test 시에는 ?
    - 상황에 따라 알맞게 구현. ex) 시계열 데이터 변수가 존재하는 데이터셋이라면 test의 target 평균은 가장 가까운 시간대 fold의 target 평균값을 사용할 수 있을 것이다.
- Smoothing + K-Fold (category_encoders.TargetEncoder 에서는 K-Fold를 지원 안 함)

범주형 변수와 binary target 변수 사이의 관계를 측정하는 방법이다.

$$ WOE_c=\ln\frac{p\%_c}{n\%_c} $$
- c(category) : 범주형 변수의 값.
- $p\%_c$ (distribution of positive) : $\frac{N(p_c)}{N(p)}$ 전체 positive 중 범주값이 c일 때 positive의 비율
- $n\%_c$ (distribution of negative) : $\frac{N(n_c)}{N(n)}$ 전체 negative 중 범주값이 c일 때 negative의 비율
해석)
- WOE > 0 : 해당 범주값이 positive 와 관계가 있다.
- WOE < 0 : 해당 범주값이 negative 와 관계가 있다.
- WOE = 0 : 해당 범주값이 target과 아무런 관계도 없다.
basic code