Study/통계학

[통계학] 음이항분포

더움바다 2024. 8. 17. 10:36

음이항분포 (Negative Binomial Distribution)

음이항분포는 일정한 성공 확률을 가진 독립적인 시행에서 $r$번째 성공이 나타날 때까지의 시행 횟수를 모델링하는 분포입니다. 이는 기하분포의 일반화된 형태로 볼 수 있습니다. (기하분포란?)

음이항분포에서 확률변수 $X$는 $r$번째 성공이 나타날 때까지의 시행 횟수를 나타내며, 성공 확률을 $p$라고 할 때, 확률 질량 함수(PMF)는 다음과 같습니다.

 

$ P(X = k) = \binom{k-1}{r-1} \cdot p^r \cdot (1-p)^{k-r} \quad \text{for } k = r, r+1, r+2, \dots $

 

기댓값

음이항분포의 기댓값을 조건부 기댓값을 활용하여 구할수 있습니다.

조건부 기댓값의 성질을 활용하면, $r$번째 성공이 나타날 때까지의 시행 횟수는 $r$번의 기하분포의 시행 횟수의 합으로 볼 수 있습니다.

음이항분포의 기댓값은 $r$번의 독립적인 성공이 발생할 때까지 필요한 총 시행 횟수의 기댓값입니다.

각 성공이 기하분포를 따르므로, 이들의 기댓값을 모두 더하면 음이항분포의 기댓값을 구할 수 있습니다.

기하분포에서 첫 번째 성공까지의 기댓값은 $ \frac{1}{p} $로, 음이항분포에서 $r$번의 성공이 일어날 때까지의 기댓값은 다음과 같이 구할 수 있습니다

 

$ E(X) = r \times E(\text{기하분포에서의 시행 횟수}) $

 

여기서 각 기하분포에서의 시행 횟수의 기댓값은 $ \frac{1}{p} $이므로

 

$ E(X) = r \times \frac{1}{p} = \frac{r}{p} $

 

따라서 음이항분포의 기댓값은 $ \frac{r}{p} $입니다.

분산

분산 $ \text{Var}(X) $는 기댓값과 제곱의 기댓값을 이용하여 다음과 같이 정의됩니다.

 

$\text{Var}(X) = E(X^2) - [E(X)]^2 $

 

위에서 기댓값을 구했으므로 $E(X^2)$를 구해보겠습니다.

음이항분포에서의 시행 횟수 $ X $는 $r$번의 기하분포 시행의 합이므로, $ E(X^2) $를 구하는 방법도 기하분포에서의 $ E(X^2) $의 계산 방법을 확장하여 구할 수 있습니다.

기하분포에서 $X$의 기댓값 $ E(X) = \frac{1}{p} $, 분산 $ \text{Var}(X) = \frac{1-p}{p^2} $임을 이용합니다.

여기서 $ X_1, X_2, \dots, X_r $을 각각의 독립적인 기하분포 시행으로 볼 때, 음이항분포에서 $X$는 이들 $ X_i $의 합으로 볼 수 있습니다.

 

$X=X_1+X_2+ \dots + X_r$

따라서

 

$E(X^2) = E\left[\left(X_1 + X_2 + \dots + X_r\right)^2\right] $

 

이는 분산의 성질을 활용하여 다음과 같이 표현할 수 있습니다.

 

$E(X^2) = \sum_{i=1}^{r} E(X_i^2) + 2 \sum_{i < j} E(X_i)E(X_j)$

 

기하분포에서 각 $ X_i $의 기대값은 $ \frac{1}{p} $, 분산은 $ \frac{1-p}{p^2} $이므로, 다음과 같이 정리할 수 있습니다.

 

따라서

 

$E(X^2) = \frac{r(2-p) + r(r-1)}{p^2}$

 

이를 통해 분산을 구하면

 

$\text{Var}(X) = \frac{r(2-p) + r(r-1)}{p^2} - \left(\frac{r}{p}\right)^2 $

 

위 식을 계산하면 음이항분포의 분산은 다음과 같이 구할 수 있습니다

 

$ \text{Var}(X) = \frac{r(1-p)}{p^2} $

 

오늘은 음이항분포의 개념, 기댓값, 분산에 대해 알아보았습니다.

오늘도 긴글 봐주셔서 감사합니다.

'Study > 통계학' 카테고리의 다른 글

[통계학] 초기하분포  (0) 2024.08.17
[통계학] 기하분포  (0) 2024.08.17
[통계학] 기댓값과 분산  (0) 2024.08.15