Study/통계학

[통계학] 기하분포

더움바다 2024. 8. 17. 00:01

기하분포 (Geometric Distribution)

기하분포는 성공 또는 실패와 같은 이진 사건의 연속적인 시행에서 첫 번째 성공이 나타날 때까지의 시행 횟수를 모델링하는 분포입니다.

예를 들어, 동전을 던져 첫 번째 앞면(성공)이 나올 때까지의 시행 횟수를 기하분포로 나타낼 수 있습니다.

기하분포에서 확률변수 $X$는 첫 번째 성공까지의 시행 횟수를 나타내며, 성공 확률을 $p$라고 할 때, 확률 질량 함수(PMF)는 다음과 같습니다

 

$ P(X = k) = (1-p)^{k-1} p \quad \text{for } k = 1, 2, 3, \dots $

 

기댓값

기하분포의 기댓값을 구하기 위해 조건부 기대값의 성질을 활용할 수 있습니다.

  • 첫 번째 시행에서 성공하는 경우
    • 이 경우 성공은 한 번의 시행으로 끝나므로 $ X = 1 $입니다.
    • 이 경우의 확률은 $p$이고 기댓값은 $1$입니다.
  • 첫 번째 시행에서 실패하는 경우
    • 첫 번째 시행에서 실패할 확률은 $ 1-p $입니다.
    • 이 경우 실패가 발생하므로, 성공할 때까지 더 많은 시행이 필요하게 됩니다.

 

첫 번째 시행에서 실패한 후, 남은 시행을 다시 생각해봅시다.

실패한 후 남은 시행들은 여전히 독립적인 기하분포를 따르게 됩니다.

즉, 첫 번째 실패 이후의 시행들은 처음부터 다시 시작하는 것과 동일한 상황입니다.

따라서 첫 번째 실패 이후의 시행 횟수 역시 기하분포를 따르는 확률변수로 표현할 수 있습니다.

첫 번째 실패 후 남은 시행 횟수를 $X'$라고 하면, 각 시행이 독립적인 기하분포의 특성상 $X'$의 기대값은 원래의 기댓값 $ E(X) $와 동일합니다. 따라서 전체 시행 횟수 $ X $는 다음과 같이 표현할 수 있습니다:

 

$X = 1 + X'$

 

여기서 1은 첫 번째 시행(실패)이 포함된 것이고, $X'$는 첫 번째 실패 후 남은 시행 횟수입니다.

즉, 실패한 첫 번째 시행 이후 성공할 때까지의 시행 횟수는 원래의 기대값과 같다는 것을 의미합니다.

그러므로, 첫 번째 시행에서 실패한 경우의 기댓값은 다음과 같이 표현할 수 있습니다.

 

$ E(X | \text{첫 번째 실패}) = 1 + E(X) $

 

이제 첫 번째 시행에서 성공하는 경우와 실패하는 경우를 결합하여 전체 기댓값 $ E(X) $를 계산해보겠습니다.

조건부 기댓값의 정의에 따라, 전체 기댓값은 다음과 같이 계산할 수 있습니다.

 

$ E(X) = P(\text{첫 번째 성공}) \cdot E(X | \text{첫 번째 성공}) + P(\text{첫 번째 실패}) \cdot E(X | \text{첫 번째 실패}) $

 

이를 대입하면

 

$ E(X) = p \cdot 1 + (1-p) \cdot (1 + E(X)) $

 

위 식을 정리하면

 

$ E(X) = p + (1-p) \cdot (1 + E(X)) $

$ = p + (1-p) + (1-p) \cdot E(X) $

 

양변에서 E(X)E(X)에 관한 항을 한쪽으로 모으면

 

$ E(X) \cdot [1 - (1-p)] = \frac{1}{p} $

 

따라서

 

 

분산

기하분포의 분산 $ Var(X) $을 구하기 위해서는 먼저 $ E(X^2) $을 계산한 후, 이를 이용해 분산을 구하는 과정을 거칩니다.

분산 $ Var(X) $는 기댓값을 활용하여 다음과 같이 구할수 있습니다.

 

$ Var(X) = E(X^2) - [E(X)]^2 $

$E(X^2)$ 계산

우선, 기하분포에서 $X$의 기댓값 $ E(X) = \frac{1}{p} $임을 알고 있으므로, 이를 활용하여 $ E(X^2) $를 구한 후 분산을 계산할 수 있습니다. 조건부 기댓값을 사용하여 $ E(X^2) $을 구하는 과정을 자세히 설명해보겠습니다.

 

기하분포의 $E(X^2)$을 구하기 위해 조건부 기대값의 성질을 활용할 수 있습니다.

  • 첫 번째 시행에서 성공하는 경우
    • 첫 번째 시행에서 성공할 확률은 $p$입니다.
    • 이 경우, $X=1$이므로, $X^2 = 1^2 = 1$입니다.
    • 따라서 $X^2$의 기댓값은 $p \times 1 = p$입니다.
  • 첫 번째 시행에서 실패하는 경우
    • 첫 번째 시행에서 실패할 확률은 $ 1-p $입니다.
    • 실패하면, 남은 시행들은 다시 기하분포를 따릅니다.
    • 즉, 이 경우의 시행 횟수를 $X'$라고 하면, 실패한 첫 번째 시행을 포함하여 전체 시행 횟수는 $X = 1 + X'$로 표현됩니다.
    • 따라서 $X^2$는 다음과 같이 표현할수 있습니다.

 

 

$ X^2 = (1 + X')^2 = 1^2 + 2 \cdot 1 \cdot X' + (X')^2 = 1 + 2X' + (X')^2 $

 

이 식의 기대값을 구해야 하므로, 조건부 기댓값을 사용하여 다음과 같이 계산합니다.

 

$ E(X^2 \mid \text{첫 번째 실패}) = E(1 + 2X' + (X')^2 \mid \text{첫 번째 실패}) $

 

기하분포에서 $X'$는 다시 원래의 분포와 동일한 기하분포를 따르므로, $X'$의 기댓값은 $E(X)$이고, $ (X')^2 $의 기댓값은 $ E(X^2) $가 됩니다.

따라서 다음과 같이 계산됩니다.

 

$ E(X^2 \mid \text{첫 번째 실패}) = 1 + 2E(X) + E(X^2) $

 

이제 첫 번째 시행에서 성공하는 경우와 실패하는 경우를 모두 합쳐 $ E(X^2) $를 구할 수 있습니다

 

$ E(X^2) = p \cdot 1 + (1-p) \cdot [1 + 2E(X) + E(X^2)] $

 

위 식을 정리하면

 

$ E(X^2) = p + (1-p) \cdot [1 + 2E(X) + E(X^2)] $

$ = p + (1-p) + 2(1-p)E(X) + (1-p)E(X^2) $

 

이제 $ E(X^2) $에 관한 항을 한쪽으로 모아서 풀어보면

 

$ E(X^2) - (1-p)E(X^2) = p + (1-p) + 2(1-p)E(X) $

$ E(X^2) \cdot [1 - (1-p)] = 1 + 2(1-p)E(X) $

$ E(X^2) \cdot p = 1 + 2(1-p) \cdot \frac{1}{p} $

이를 다시 정리하면

 

따라서, $ E(X^2) = \frac{2-p}{p^2} $가 됩니다.

 

분산 $\text{Var}(X)$의 계산

이제 분산을 계산하기 위해, $E(X)$와 $E(X^2)$를 다음 식에 대입해줍니다.

 

$ \text{Var}(X) = E(X^2) - [E(X)]^2 $

 

계산해주면

 

 

 

오늘은 기하분포의 개념, 기댓값과 분산에 대해 알아보았습니다.

오늘도 긴글 봐주셔서 감사합니다.

'Study > 통계학' 카테고리의 다른 글

[통계학] 음이항분포  (2) 2024.08.17
[통계학] 기댓값과 분산  (0) 2024.08.15
[확률] 조건부 확률  (0) 2024.08.13