📘 공분산과 상관관계: 두 변수 간의 관계 분석
공분산(Covariance)과 상관계수(Correlation Coefficient)는 두 변수 간의 관계를 계량적으로 설명할 수 있는 대표적인 통계 지표이다. 이 글에서는 이 두 개념의 정의, 수식, 해석, 그리고 실제 예제를 중심으로 두 지표를 비교 설명한다.
1. 공분산(Covariance)의 정의 및 해석
공분산은 두 확률 변수 간의 함께 변화하는 정도(co-movement)를 측정하는 지표이다.
표본 공분산은 다음과 같이 정의된다:
$\mathrm{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) = \mathrm{E}(XY) - \mathrm{E}(X)\mathrm{E}(Y)$
- $\mathrm{Cov}(X, Y) > 0$: X가 증가할 때 Y도 증가하는 경향
- $\mathrm{Cov}(X, Y) < 0$: X가 증가할 때 Y는 감소하는 경향
- $\mathrm{Cov}(X, Y) \approx 0$: 선형적 관계가 거의 없음
❗ 단점: 공분산은 변수의 단위에 따라 값이 달라지므로, 절대적인 해석이 어렵다.
1-1. 기댓값이 0이라면?
$\mathrm{E}(X) = 0$
$\mathrm{Cov}(X, Y) = \mathrm{E}(XY) - \mathrm{E}(X)\mathrm{E}(Y) = \mathrm{E}(XY) - 0 * \mathrm{E}(Y) = \mathrm{E}(XY)$
1-2. 자기자신의 공분산?
$\mathrm{Cov}(X, X) = \mathrm{E}(X^2) - \mathrm{E}(X)\mathrm{E}(X) = V(X)$
2. 상관계수(Correlation Coefficient)의 정의 및 해석
상관계수는 공분산을 각 변수의 표준편차로 정규화한 값으로, 다음과 같이 정의된다:
$\mathrm{Corr}(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(Y)}}$
- $\rho = 1$: 완벽한 양의 선형 관계
- $\rho = -1$: 완벽한 음의 선형 관계
- $\rho = 0$: 선형적 상관관계 없음
📌 특징
- 단위가 제거되어 비교 가능
- 선형 관계만 측정하며, 비선형 관계는 포착하지 못함
- 값의 해석이 직관적임
2-1. 왜 공분산으로부터 상관계수를 유도할 수 있는가?
🔸 정규화의 필요성
- 공분산은 단위에 영향을 받음. 예: 키(cm), 몸무게(kg)일 경우 수치가 해석 어려움.
- 따라서 표준편차로 나누어 무단위화 → 두 변수 간의 상대적 선형 관계 파악 가능.
🔸 유도 과정
- 이는 공분산을 각 변수의 표준편차로 나눈 형태로 볼 수 있음.
2-2. 공분산이 0이라면?
$\mathrm{Cov}(X, Y) = 0$
$\mathrm{Corr}(X, Y) = \frac{0}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(Y)}} = 0$
2-3. 자기자신의 상관관계?
$\mathrm{Corr}(X, X) = \frac{\mathrm{Cov}(X, X)}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(X)}} = \frac{\mathrm{V}(X)}{ \mathrm{V}(X)} = 1$
요약 비교
항목 | 공분산 | 상관계수 |
의미 | 두 변수의 동시 변화 정도 | 두 변수의 선형 관계 강도 |
값의 범위 | 제한 없음 | -1 ~ +1 |
단위 | 원래 변수 단위의 곱 | 무단위 |
해석 용이성 | 상대적으로 어려움 | 직관적 해석 가능 |
'Study > 통계학' 카테고리의 다른 글
[통계학] F분포 (1) | 2025.01.16 |
---|---|
[통계학] 카이제곱분포 (0) | 2025.01.16 |
[통계학] 포아송분포 (0) | 2024.08.19 |