기하분포 (Geometric Distribution)
기하분포는 성공 또는 실패와 같은 이진 사건의 연속적인 시행에서 첫 번째 성공이 나타날 때까지의 시행 횟수를 모델링하는 분포입니다.
예를 들어, 동전을 던져 첫 번째 앞면(성공)이 나올 때까지의 시행 횟수를 기하분포로 나타낼 수 있습니다.
기하분포에서 확률변수 $X$는 첫 번째 성공까지의 시행 횟수를 나타내며, 성공 확률을 $p$라고 할 때, 확률 질량 함수(PMF)는 다음과 같습니다
$ P(X = k) = (1-p)^{k-1} p \quad \text{for } k = 1, 2, 3, \dots $
기댓값
기하분포의 기댓값을 구하기 위해 조건부 기대값의 성질을 활용할 수 있습니다.
- 첫 번째 시행에서 성공하는 경우
- 이 경우 성공은 한 번의 시행으로 끝나므로 $ X = 1 $입니다.
- 이 경우의 확률은 $p$이고 기댓값은 $1$입니다.
- 첫 번째 시행에서 실패하는 경우
- 첫 번째 시행에서 실패할 확률은 $ 1-p $입니다.
- 이 경우 실패가 발생하므로, 성공할 때까지 더 많은 시행이 필요하게 됩니다.
첫 번째 시행에서 실패한 후, 남은 시행을 다시 생각해봅시다.
실패한 후 남은 시행들은 여전히 독립적인 기하분포를 따르게 됩니다.
즉, 첫 번째 실패 이후의 시행들은 처음부터 다시 시작하는 것과 동일한 상황입니다.
따라서 첫 번째 실패 이후의 시행 횟수 역시 기하분포를 따르는 확률변수로 표현할 수 있습니다.
첫 번째 실패 후 남은 시행 횟수를 $X'$라고 하면, 각 시행이 독립적인 기하분포의 특성상 $X'$의 기대값은 원래의 기댓값 $ E(X) $와 동일합니다. 따라서 전체 시행 횟수 $ X $는 다음과 같이 표현할 수 있습니다:
$X = 1 + X'$
여기서 1은 첫 번째 시행(실패)이 포함된 것이고, $X'$는 첫 번째 실패 후 남은 시행 횟수입니다.
즉, 실패한 첫 번째 시행 이후 성공할 때까지의 시행 횟수는 원래의 기대값과 같다는 것을 의미합니다.
그러므로, 첫 번째 시행에서 실패한 경우의 기댓값은 다음과 같이 표현할 수 있습니다.
$ E(X | \text{첫 번째 실패}) = 1 + E(X) $
이제 첫 번째 시행에서 성공하는 경우와 실패하는 경우를 결합하여 전체 기댓값 $ E(X) $를 계산해보겠습니다.
조건부 기댓값의 정의에 따라, 전체 기댓값은 다음과 같이 계산할 수 있습니다.
$ E(X) = P(\text{첫 번째 성공}) \cdot E(X | \text{첫 번째 성공}) + P(\text{첫 번째 실패}) \cdot E(X | \text{첫 번째 실패}) $
이를 대입하면
$ E(X) = p \cdot 1 + (1-p) \cdot (1 + E(X)) $
위 식을 정리하면
$ E(X) = p + (1-p) \cdot (1 + E(X)) $
$ = p + (1-p) + (1-p) \cdot E(X) $
양변에서 E(X)E(X)에 관한 항을 한쪽으로 모으면
$ E(X) \cdot [1 - (1-p)] = \frac{1}{p} $
따라서
분산
기하분포의 분산 $ Var(X) $을 구하기 위해서는 먼저 $ E(X^2) $을 계산한 후, 이를 이용해 분산을 구하는 과정을 거칩니다.
분산 $ Var(X) $는 기댓값을 활용하여 다음과 같이 구할수 있습니다.
$ Var(X) = E(X^2) - [E(X)]^2 $
$E(X^2)$ 계산
우선, 기하분포에서 $X$의 기댓값 $ E(X) = \frac{1}{p} $임을 알고 있으므로, 이를 활용하여 $ E(X^2) $를 구한 후 분산을 계산할 수 있습니다. 조건부 기댓값을 사용하여 $ E(X^2) $을 구하는 과정을 자세히 설명해보겠습니다.
기하분포의 $E(X^2)$을 구하기 위해 조건부 기대값의 성질을 활용할 수 있습니다.
- 첫 번째 시행에서 성공하는 경우
- 첫 번째 시행에서 성공할 확률은 $p$입니다.
- 이 경우, $X=1$이므로, $X^2 = 1^2 = 1$입니다.
- 따라서 $X^2$의 기댓값은 $p \times 1 = p$입니다.
- 첫 번째 시행에서 실패하는 경우
- 첫 번째 시행에서 실패할 확률은 $ 1-p $입니다.
- 실패하면, 남은 시행들은 다시 기하분포를 따릅니다.
- 즉, 이 경우의 시행 횟수를 $X'$라고 하면, 실패한 첫 번째 시행을 포함하여 전체 시행 횟수는 $X = 1 + X'$로 표현됩니다.
- 따라서 $X^2$는 다음과 같이 표현할수 있습니다.
$ X^2 = (1 + X')^2 = 1^2 + 2 \cdot 1 \cdot X' + (X')^2 = 1 + 2X' + (X')^2 $
이 식의 기대값을 구해야 하므로, 조건부 기댓값을 사용하여 다음과 같이 계산합니다.
$ E(X^2 \mid \text{첫 번째 실패}) = E(1 + 2X' + (X')^2 \mid \text{첫 번째 실패}) $
기하분포에서 $X'$는 다시 원래의 분포와 동일한 기하분포를 따르므로, $X'$의 기댓값은 $E(X)$이고, $ (X')^2 $의 기댓값은 $ E(X^2) $가 됩니다.
따라서 다음과 같이 계산됩니다.
$ E(X^2 \mid \text{첫 번째 실패}) = 1 + 2E(X) + E(X^2) $
이제 첫 번째 시행에서 성공하는 경우와 실패하는 경우를 모두 합쳐 $ E(X^2) $를 구할 수 있습니다
$ E(X^2) = p \cdot 1 + (1-p) \cdot [1 + 2E(X) + E(X^2)] $
위 식을 정리하면
$ E(X^2) = p + (1-p) \cdot [1 + 2E(X) + E(X^2)] $
$ = p + (1-p) + 2(1-p)E(X) + (1-p)E(X^2) $
이제 $ E(X^2) $에 관한 항을 한쪽으로 모아서 풀어보면
$ E(X^2) - (1-p)E(X^2) = p + (1-p) + 2(1-p)E(X) $
$ E(X^2) \cdot [1 - (1-p)] = 1 + 2(1-p)E(X) $
$ E(X^2) \cdot p = 1 + 2(1-p) \cdot \frac{1}{p} $
이를 다시 정리하면
따라서, $ E(X^2) = \frac{2-p}{p^2} $가 됩니다.
분산 $\text{Var}(X)$의 계산
이제 분산을 계산하기 위해, $E(X)$와 $E(X^2)$를 다음 식에 대입해줍니다.
$ \text{Var}(X) = E(X^2) - [E(X)]^2 $
계산해주면
오늘은 기하분포의 개념, 기댓값과 분산에 대해 알아보았습니다.
오늘도 긴글 봐주셔서 감사합니다.
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/003.gif)
'Study > 통계학' 카테고리의 다른 글
[통계학] 음이항분포 (2) | 2024.08.17 |
---|---|
[통계학] 기댓값과 분산 (0) | 2024.08.15 |
[확률] 조건부 확률 (0) | 2024.08.13 |