Study/통계학

[통계학] 초기하분포

더움바다 2024. 8. 17. 22:36

초기하분포 (Hypergeometric Distribution)

초기하분포(Hypergeometric Distribution)는 유한한 모집단에서 비복원 추출을 통해 얻은 표본에서 특정 속성을 가진 항목의 수를 모델링하는 분포입니다.

초기하분포는 모집단에서의 성공과 실패를 구분하며, 이항분포와는 달리 비복원 추출을 사용합니다.

 

초기하분포의 확률변수 $X$는 $N$개의 모집단에서 $n$개의 표본을 추출할 때, $K$개의 성공 항목 중에서 $k$개의 성공 항목을 뽑을 확률을 나타냅니다.

 

초기하분포의 확률 질량 함수(PMF)는 다음과 같이 주어집니다.

 

$ P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} $

 

  • $N$은 모집단의 크기를 나타냅니다.
  • $K$는 모집단에서의 성공 항목의 수를 나타냅니다.
  • $n$은 추출한 표본의 크기를 나타냅니다.
  • $k$는 표본에서의 성공 항목의 수입니다.

 

기대값

초기하분포의 기댓값 $ E(X) $을 구하기 위해서, 각 표본의 성공 여부를 이진 확률변수로 나타내어 생각해볼 수 있습니다.

 

개별 성공 항목의 기대값

우선 모집단에서 비복원 추출로 성공 항목을 선택할 확률을 구할 수 있습니다.

$ X_i $를 표본의 $i$번째 항목이 성공 항목인지를 나타내는 지시변수(Indicator Variable)라고 합시다.

그러면 $ X_i $는 다음과 같은 값을 가집니다.

 

각각의 $ X_i $에 대한 기댓값 $ E(X_i) $는 다음과 같습니다.

 

$ E(X_i) = P(X_i = 1) = \frac{K}{N} $

 

즉, 모집단에서 $K$개의 성공 항목이 있을 때, 비복원 추출로 표본 하나를 뽑을 때 성공 항목일 확률은 $ \frac{K}{N} $입니다.

 

전체 기대값

전체 표본 $n$개에 대해 성공 항목의 수 $X$는 다음과 같이 나타낼 수 있습니다.

 

$ X = X_1 + X_2 + \dots + X_n $

 

초기하분포의 기댓값은 각 지시변수의 기댓값의 합으로 구할 수 있습니다.

 

$ E(X) = E(X_1 + X_2 + \dots + X_n) = E(X_1) + E(X_2) + \dots + E(X_n) $

 

지시변수의 기댓값이 모두 $ \frac{K}{N} $이므로, 초기하분포의 기댓값은 다음과 같습니다.

 

$ E(X) = n \cdot \frac{K}{N} = \frac{nK}{N} $

 

따라서 초기하분포에서 성공 항목의 기댓값은 $ \frac{nK}{N} $입니다.

 

분산

초기하분포의 분산 $ \text{Var}(X) $은 기댓값을 이용하여 구할 수 있습니다.

초기하분포는 이항분포와는 달리 비복원 추출을 사용하므로, 항목 간의 종속성을 고려해야 합니다.

 

분산 $ \text{Var}(X) $은 기댓값 $ E(X) $와 제곱의 기댓값 $ E(X^2) $을 이용하여 다음과 같이 정의됩니다.

 

$ \text{Var}(X) = E(X^2) - [E(X)]^2 $

 

$E(X^2)$ 구하기

지시변수 $ X_i $와 $ X_j $의 곱에 대한 기댓값을 고려합니다.

두 항목 간에는 종속성이 있기 때문에, 지시변수의 기대값을 계산할 때 이를 고려해야 합니다.

 

$ E(X^2) = \sum_{i=1}^{n} E(X_i^2) + \sum_{i \neq j} E(X_i X_j) $

 

  • $ E(X_i^2) = E(X_i) $입니다. 왜냐하면 $ X_i $는 0 또는 1의 값을 가지기 때문에, $ E(X_i^2) = E(X_i) $입니다.
  • $ E(X_i X_j) $는 두 항목이 모두 성공일 확률을 의미합니다.

 

이항분포의 경우 두 항목이 독립적이지만, 초기하분포에서는 비복원 추출이므로 두 항목이 종속적입니다.

두 항목이 성공일 확률은 다음과 같습니다.

 

$ E(X_i X_j) = P(\text{i번째 항목과 j번째 항목이 성공}) = \frac{K}{N} \cdot \frac{K-1}{N-1} $

따라서, $ E(X^2) $은 다음과 같이 계산됩니다.

 

 

분산 구하기

$E(X^2)$를 구했으므로 이제 분산을 계산할 수 있습니다.

 

$ \text{Var}(X) = E(X^2) - [E(X)]^2 $

 

$ E(X^2) $을 대입하고 정리하면 다음과 같이 계산됩니다.

 

이를 최종적으로 정리하면, 초기하분포의 분산은 다음과 같이 구해집니다.

 

$ \text{Var}(X) = \frac{nK(N-K)(N-n)}{N^2(N-1)} $

 

오늘은 초기하분포의 개념, 기댓값, 분산에 대해 알아보았습니다.

오늘도 긴글 봐주셔서 감사합니다.

'Study > 통계학' 카테고리의 다른 글

[통계학] 포아송분포  (0) 2024.08.19
[통계학] 음이항분포  (2) 2024.08.17
[통계학] 기하분포  (0) 2024.08.17