Study/통계학

[통계학] 공분산과 상관관계

더움바다 2025. 4. 16. 22:48

📘 공분산과 상관관계: 두 변수 간의 관계 분석

공분산(Covariance)상관계수(Correlation Coefficient)는 두 변수 간의 관계를 계량적으로 설명할 수 있는 대표적인 통계 지표이다. 이 글에서는 이 두 개념의 정의, 수식, 해석, 그리고 실제 예제를 중심으로 두 지표를 비교 설명한다.

1. 공분산(Covariance)의 정의 및 해석

공분산은 두 확률 변수 간의 함께 변화하는 정도(co-movement)를 측정하는 지표이다.
표본 공분산은 다음과 같이 정의된다:

$\mathrm{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) = \mathrm{E}(XY) - \mathrm{E}(X)\mathrm{E}(Y)$

  • $\mathrm{Cov}(X, Y) > 0$: X가 증가할 때 Y도 증가하는 경향
  • $\mathrm{Cov}(X, Y) < 0$: X가 증가할 때 Y는 감소하는 경향
  • $\mathrm{Cov}(X, Y) \approx 0$: 선형적 관계가 거의 없음

 

단점: 공분산은 변수의 단위에 따라 값이 달라지므로, 절대적인 해석이 어렵다.

 

1-1. 기댓값이 0이라면?

$\mathrm{E}(X) = 0$

$\mathrm{Cov}(X, Y) = \mathrm{E}(XY) - \mathrm{E}(X)\mathrm{E}(Y) = \mathrm{E}(XY) - 0 * \mathrm{E}(Y) = \mathrm{E}(XY)$

 

1-2. 자기자신의 공분산?

$\mathrm{Cov}(X, X) = \mathrm{E}(X^2) - \mathrm{E}(X)\mathrm{E}(X) = V(X)$

 

2. 상관계수(Correlation Coefficient)의 정의 및 해석

상관계수는 공분산을 각 변수의 표준편차로 정규화한 값으로, 다음과 같이 정의된다:

$\mathrm{Corr}(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(Y)}}$

  • $\rho = 1$: 완벽한 양의 선형 관계
  • $\rho = -1$: 완벽한 음의 선형 관계
  • $\rho = 0$: 선형적 상관관계 없음

 

📌 특징

  • 단위가 제거되어 비교 가능
  • 선형 관계만 측정하며, 비선형 관계는 포착하지 못함
  • 값의 해석이 직관적임

 

2-1.  왜 공분산으로부터 상관계수를 유도할 수 있는가?

🔸 정규화의 필요성

  • 공분산은 단위에 영향을 받음. 예: 키(cm), 몸무게(kg)일 경우 수치가 해석 어려움.
  • 따라서 표준편차로 나누어 무단위화 → 두 변수 간의 상대적 선형 관계 파악 가능.

🔸 유도 과정

  • 이는 공분산을 각 변수의 표준편차로 나눈 형태로 볼 수 있음.

2-2.  공분산이 0이라면?

$\mathrm{Cov}(X, Y) = 0$

$\mathrm{Corr}(X, Y) = \frac{0}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(Y)}} = 0$

 

2-3.  자기자신의 상관관계?

$\mathrm{Corr}(X, X) = \frac{\mathrm{Cov}(X, X)}{\sqrt{\mathrm{V}(X)} \sqrt{\mathrm{V}(X)}} = \frac{\mathrm{V}(X)}{ \mathrm{V}(X)} = 1$

 

요약 비교

항목 공분산 상관계수
의미 두 변수의 동시 변화 정도 두 변수의 선형 관계 강도
값의 범위 제한 없음 -1 ~ +1
단위 원래 변수 단위의 곱 무단위
해석 용이성 상대적으로 어려움 직관적 해석 가능

'Study > 통계학' 카테고리의 다른 글

[통계학] F분포  (1) 2025.01.16
[통계학] 카이제곱분포  (0) 2025.01.16
[통계학] 포아송분포  (0) 2024.08.19