◾상관분석 - Correlation Analysis
- 둘 또는 그 이상의 변수 간의 관련성을 분석하는 것.
- 변수 간의 상관관계( + / - , 비례/반비례)를 분석한다.
🔸상관관계 VS 인과관계
- 인과관계 : 한 변수의 변화가 원인이 되어 그 결과로서 다른 변수를 변화시키는 것.
- 상관관계 ≠ 인과관계
◾공분산 및 상관계수
- 산점도로 파악한 변수 간의 상관관계를 수학적 모형으로 나타내기 위해 필요한 수치
🔻공분산 Covariance
- 2개의 확률변수의 상관 정도를 나타내는 값.
- 두 변수가 함께 변하는 정도를 나타낸다.
- 확률변수의 값과 그 값의 평균 간의 곱의 평균으로 계산된다. 즉, 두 변량 X, Y에 대해 아래와 같이 계산된다.
- 두 변수가 양의 상관관계를 가질 때, 공분산은 양의 값이 나오고
음의 상관관계를 가질 때는 공분산이 음수값이 나온다.
공분산이 0이면 두 확률변수는 관계가 없다.
- 그러나 공분산만으로는 상관관계의 ‘강도’를 파악하기 어렵다. >> 상관계수로 보완
공분산은 분포의 ‘방향’을 의미하지, 분포의 ‘크기’를 의미하진 않는다는 점에서 ‘분산’과 다르다.
🔸공분산 공식
$$
\operatorname{Cov}(X,Y) = \operatorname{E}[(X-\operatorname{E}(X))(Y-\operatorname{E}(Y))]
= \dfrac{\Sigma(x-\bar{x})(y-\bar{y})}{n}
= \operatorname{E}(XY) - \operatorname{E}(X)\operatorname{E}(Y)
$$
🔻상관계수 Correlation Coefficient
- 공분산을 보완하기 위해 2개 변수의 상관관계의 정도를 파악하기 위한 수치이다.
- 주로 상관계수가 0에 가까울수록 변수 간의 관계가 약하다고 판단하고,
1 또는 -1에 가까울수록 관계가 강하다고 판단한다.
보통 0.5 또는 -0.5가 기준이 된다.