범주형 데이터 간에 상관관계를 분석할 때 사용하는 분석 방법이다.
카이 제곱 독립성 검정의 효과 크기를 측정하는 방법이다. 두 카테고리형 필드가 얼마나 강력하게 연관되는지를 측정
범주가 3개 이상인 데이터들에 적용한다.
행렬에 2개의 범주형 자료를 나열하고 빈도수를 작성한다.
e.g.) 연령대(j, 열)별 음식(i, 행) 선호도
10대 | 20대 | 30대 | 40대 | 합계 E_i | |
---|---|---|---|---|---|
한식 | 9 | 14 | 10 | 5 | 38 |
양식 | 5 | 11 | 13 | 6 | 35 |
일식 | 6 | 5 | 7 | 9 | 27 |
합계 E_j | 20 | 30 | 30 | 20 | 100 |
각 셀의 기댓값(=기대빈도)을 구한다.
$E_{ij}=\frac{E_i\times E_j}{n}$
e.g.) 연령대(j, 열)별 음식(i, 행) 선호도
10대 | 20대 | 30대 | 40대 | 합계 E_i | |
---|---|---|---|---|---|
한식 | 7.6 | 11.4 | 11.4 | 7.6 | 38 |
양식 | 7.0 | 10.5 | 10.5 | 7.0 | 35 |
일식 | 5.4 | 8.1 | 8.1 | 5.4 | 27 |
합계 E_j | 20 | 30 | 30 | 20 | 100 |
이 때, 각 셀의 기대빈도는 5 이상이어야 한다.
그래야 정규분포에 근사할 수 있고, 정규 근사가 가능해야 카이제곱 통계량을 계산할 수 있다고 한다… https://m.blog.naver.com/paperfactor_ceo/222223080511
→ 기대빈도가 5 보다 작다면, “Fisher’s Exact Test” (피셔의 정확 검정)를 활용해야 한다.
카이제곱 값을 구한다.
$\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}$, $O_{ij}=빈도수,~E_{ij}=기대빈도$
e.g.) 연령대(j, 열)별 음식(i, 행) 선호도
$$ \chi^2=((9-7.6)^2/7.6)+\cdots+((9-5.4)^2/5.4) \\=7.0481 $$
V값을 구한다.
$$ V=\sqrt{\frac{7.0481}{100\times (3-1)}}=0.1877 $$
공식)
$$ V=\sqrt{\frac{\chi^2}{n(q-1)}} $$