통계적 독립이란?
통계적 독립(Statistical Independence)이란 두 사건이 서로 영향을 주지 않는다는 것을 의미합니다.
즉, 한 사건의 발생 여부가 다른 사건의 발생 확률에 전혀 영향을 미치지 않는 경우를 말합니다.
두 사건 $A$와 $B$가 통계적으로 독립일 때, 다음과 같은 관계가 성립합니다.
$ P(A \cap B) = P(A) \cdot P(B) $
- $ P(A) $는 사건 $A$가 발생할 확률입니다.
- $ P(B) $는 사건 $B$가 발생할 확률입니다.
- $ P(A \cap B) $는 사건 $A$와 $B$가 동시에 발생할 확률입니다.
이 정의는 직관적으로 두 사건이 서로 독립적일 때, 한 사건이 일어나는 것이 다른 사건이 일어날 확률에 아무런 영향을 미치지 않음을 의미합니다.
EX_1) 동전 던지기
동전을 두 번 던지는 경우를 생각해보겠습니다. 첫 번째 던지기에서 앞면이 나오는 사건을 $A$, 두 번째 던지기에서 앞면이 나오는 사건을 $B$라고 하면, 이 두 사건은 통계적으로 독립적입니다. 왜냐하면 첫 번째 던지기의 결과는 두 번째 던지기에 전혀 영향을 미치지 않기 때문입니다.
이를 수식으로 나타내면 다음과 같습니다.
$ P(A \cap B) = P(A) \cdot P(B) $
만약 동전이 공정하다면, $ P(A) = P(B) = 0.5 $이고, 동시에 앞면이 나올 확률은 $ 0.5 \times 0.5 = 0.25 $입니다.
베이즈 정리란?
베이즈 정리(Bayes' Theorem)는 사후 확률을 계산하는 방법입니다.
사후 확률이란, 새로운 정보가 주어졌을때 어떤 사건이 일어날 확률을 의미합니다.
이 확률은 이전에 알고 있던 사전 확률과 새로운 정보를 기반으로 계산할수 있습니다.
베이즈 정리는 다음과 같이 정의됩니다.
$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \quad \text{if } P(B) > 0 $
- $ P(A|B) $는 사건 $B$가 일어난 후에 사건 $A$가 일어날 조건부 확률입니다.
- $ P(B|A) $는 사건 $A$가 일어난 후에 사건 $B$가 일어날 조건부 확률입니다.
- $ P(A) $는 사건 $A$가 발생할 확률입니다.
- $ P(B) $는 사건 $B$가 발생할 확률입니다.
EX_2) 스팸메일 필터링
이메일을 받았을때 그 이메일이 스팸일 가능성을 계산하고자 합니다. 이메일이 "무료"라는 단어를 포함할 때 스팸일 확률을 구해보겠습니다.
- 사전 확률 $ P(\text{스팸}) = 0.2$: 전체 이메일 중 20%가 스팸입니다.
- "무료"가 포함된 이메일 중 스팸일 확률 $P(\text{무료}|\text{스팸}) = 0.7$: 스팸 이메일의 70%에 "무료"라는 단어가 포함되어 있습니다.
- 스팸이 아닌 이메일에서 "무료"가 포함될 확률 $P(\text{무료}|\text{스팸 아님}) = 0.1$: 스팸이 아닌 이메일의 10%에 "무료"라는 단어가 포함되어 있습니다.
"무료"가 포함된 이메일의 전체 확률 $ P(\text{무료}) $를 계산합니다.
$ P(\text{무료}) = P(\text{무료}|\text{스팸}) \cdot P(\text{스팸}) + P(\text{무료}|\text{스팸 아님}) \cdot P(\text{스팸 아님}) $
여기서 $ P(\text{스팸 아님}) = 1 - P(\text{스팸}) = 0.8 $입니다.
$ P(\text{무료}) = 0.7 \times 0.2 + 0.1 \times 0.8 = 0.14 + 0.08 = 0.22 $
베이즈 정리를 사용하여 이메일이 "무료"라는 단어를 포함할 때 스팸일 확률을 계산합니다.
$ P(\text{스팸}|\text{무료}) = \frac{P(\text{무료}|\text{스팸}) \cdot P(\text{스팸})}{P(\text{무료})} $
$ = \frac{0.7 \times 0.2}{0.22} = \frac{0.14}{0.22} \approx 0.636 $
즉, "무료"라는 단어를 포함한 이메일이 스팸일 확률은 약 63.6%입니다.
EX_3) 질병 진단
한 환자가 특정 질병에 걸렸을 가능성을 평가하고자 합니다. 이 질병에 대해 테스트를 했을때 환자가 양성일 때 양성으로 판정할 확률은 99%, 음성일 때 음성으로 판정할 확률은 95%입니다. 또한 인구 전체에서 이 질병에 걸릴 확률은 1%입니다. 이 환자가 테스트에서 양성 판정을 받았을 때 실제로 질병에 걸렸을 확률을 계산해보겠습니다.
- 사전 확률 $P(\text{질병}) = 0.01$: 인구 중 1%가 이 질병에 걸립니다.
- 양성 판정 확률 $P(\text{양성}|\text{질병}) = 0.99$: 질병이 있는 사람이 양성 판정을 받을 확률.
- 음성 판정 확률 $P(\text{음성}|\text{질병 없음}) = 0.95$: 질병이 없는 사람이 음성 판정을 받을 확률.
- 양성 판정 확률 $P(\text{양성}|\text{질병 없음}) = 1 - P(\text{음성}|\text{질병 없음}) = 0.05$: 질병이 없는 사람이 양성 판정을 받을 확률.
양성 판정을 받을 전체 확률 $ P(\text{양성}) $는 다음과 같이 계산됩니다.
$ P(\text{양성}) = P(\text{양성}|\text{질병}) \cdot P(\text{질병}) + P(\text{양성}|\text{질병 없음}) \cdot P(\text{질병 없음}) $
여기서 $ P(\text{질병 없음}) = 1 - P(\text{질병}) = 0.99 $입니다.
$ P(\text{양성}) = 0.99 \times 0.01 + 0.05 \times 0.99 = 0.0099 + 0.0495 = 0.0594 $
이제 베이즈 정리를 사용하여 환자가 양성 판정을 받은 후 실제로 질병에 걸렸을 확률을 계산합니다.
$ P(\text{질병}|\text{양성}) = \frac{P(\text{양성}|\text{질병}) \cdot P(\text{질병})}{P(\text{양성})} $
$ = \frac{0.99 \times 0.01}{0.0594} = \frac{0.0099}{0.0594} \approx 0.1667 $
즉, 테스트에서 양성 판정을 받은 후 실제로 질병에 걸렸을 확률은 약 16.67%입니다.
오늘은 통계적 독립과 베이즈 정리에 대해 알아보았습니다.
긴글 봐주셔서 감사합니다.
'Study > 통계학' 카테고리의 다른 글
[확률] 확률변수 (0) | 2023.09.30 |
---|---|
[통계학] 결합사상과 조건부 확률 (0) | 2023.05.15 |
[통계학] 확률 (2) | 2023.05.13 |