0. Data

1. Data Preprocessing & EDA

데이터 분포 및 target과의 관계 파악 시각화 : train 과 test 의 분포 동시에 확인 ⭐⭐⭐

⇒ train과 test 데이터의 분포가 유사하다면 데이터 분포 변환은 고려하지 않아도 된다.

⇒ train에서 피처 구간별 target 평균이 일정하다면 해당 피처가 target에 유의미한 영향을 미치지 못한다고 해석할 수 있다. → 피처 삭제를 고려해야 한다.

결측값 확인
- 컬럼별 결측값 확인 : df.isnull().sum()
- 결측값이 n개 이상인 데이터 샘플을 확인
```
N = 5
indices_with_nan = df.isnull().sum(axis=1) >= N
df_with_nan = df[indices_with_nan]
```
결측값 처리 : 결측치 처리
fillna() 함수, interpolate() 함수 : filling missing value
수치형 변수 numeric variable : 데이터 분포 특성에 따라 처리
- 정규분포인 경우 : 평균값 대체 → df_obj['feature'].fillna(df_obj['feature'].mean())
- 왜도 있는 분포(positive skewed / negative skewed) : 중앙값 대체 → df_obj['feature'].fillna(df_obj['feature'].median())
- 그외 복잡한 데이터 : KNN 등 모델링을 통한 결측값 대체
범주형 변수 categorical variable : 데이터 규모에 따라 처리
- 소규모 : 최빈값 대체 → df_obj['feature'].fillna(df_obj['feature'].mode())
- 대규모 : ‘unkown’ class 도입 or KNN 등을 활용한 유사 그룹의 최빈값으로 대체 or 모델링을 통한 대체