超幾何分布

定義：hypergeometric distribution

超幾何分布は,有限母集団からの非復元抽出における成功回数を表す離散確率分布である.

すなわち,母集団の大きさを $N$,そのうち成功とみなされる要素の数を $K$,抽出回数を $n$ とする.このとき,$n$ 回の抽出で成功する回数 $X$ が従う分布を超幾何分布という.\[ X \sim \text{HG}(N, K, n) \]確率質量関数は,\[ P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}} \]と表される.ここで,$k$ は成功回数（$0 \leq k \leq \min(n, K)$）,$\binom{a}{b}$ は二項係数で,$\binom{a}{b} = \frac{a!}{b!(a-b)!}$ である.

導出

まず,全体像を考える.$N$ 個のアイテムがあり,そのうち $K$ 個が特定の性質を持っている.この中から $n$ 個をランダムに抽出する.

分子の第一項 \[\binom{K}{k}\] について,これは, $K$ 個の特定の性質を持つアイテムから $k$ 個を選ぶ方法の数を表している.組み合わせの公式で表すと, \[\binom{K}{k} = \frac{K!}{k!(K-k)!}\]次に,分子の第二項 $\binom{N-K}{n-k}$ は,残りの $(N-K)$ 個のアイテム[特定の性質を持たないもの]から $(n-k)$ 個を選ぶ方法の数を表している.同様に, \[\binom{N-K}{n-k} = \frac{(N-K)!}{(n-k)!((N-K)-(n-k))!}\]分子全体の \[\binom{K}{k}\binom{N-K}{n-k}\] は $k$ 個の特定の性質を持つアイテムと $(n-k)$ 個の特定の性質を持たないアイテムを選ぶ全ての可能な方法の数を表している.これは「ちょうど $k$ 個の特定のアイテムを含む」$n$ 個の選び方の総数を表わす.

分母の $\binom{N}{n}$ は,$N$ 個の全アイテムから $n$ 個を選ぶ全ての可能な方法の数である.式で表すと, \[\binom{N}{n} = \frac{N!}{n!(N-n)!}\]

まとめると,分子は「望ましい結果」の数（ちょうど $k$ 個の特定アイテムを含む選び方）,分母は「可能な全ての結果」の数（$n$ 個を選ぶ全ての方法）であり,その比が求める事象の確率となる.

なお,\[\max(0, n-(N-K)) \leq k \leq \min(K, n)\]であり,$k$ の下限は,少なくとも $0$ か,全ての非特定アイテムを選んだ後に残る数であり,$k$ の上限は,$K$（全ての特定アイテム）と $n$（選ぶ総数）の小さい方となる.

超幾何分布の具体例

箱の中に赤玉が5個,白玉が15個入っているとする（$N=20$, $K=5$）.この箱から4個の玉を非復元抽出するとき（$n=4$）,赤玉が2個出る確率は以下のように計算される.\[\begin{eqnarray}P(X = 2) &=& \frac{\binom{5}{2}\binom{15}{2}}{\binom{20}{4}} &=& \frac{10 \cdot 105}{4845} \\&\approx& 0.2165\end{eqnarray}\]

超幾何分布の性質

期待値

\[ E[X] = n\frac{K}{N} \]超幾何分布を $n$ 回の独立したベルヌーイ試行の和と考える.各試行で成功する確率は試行ごとに変化するが,期待値の線形性を利用できる.$i$ 番目の試行で成功する確率を $p_i$ とすると,\[ p_i = \frac{K-(i-1)}{N-(i-1)} \]期待値の線形性より,\[\begin{eqnarray}E[X] &=& \sum_{i=1}^n E[X_i] = \sum_{i=1}^n p_i \\&=& \sum_{i=1}^n \frac{K-(i-1)}{N-(i-1)} \\&=& K \sum_{i=1}^n \frac{1}{N-(i-1)} - \sum_{i=1}^n \frac{i-1}{N-(i-1)}\end{eqnarray}\]ここで,以下の恒等式を用いる.\[ \sum_{i=1}^n \frac{1}{N-(i-1)} = \frac{n}{N} \]\[ \sum_{i=1}^n \frac{i-1}{N-(i-1)} = \frac{n(n-1)}{2N} \]これらを代入すると,\[\begin{eqnarray}E[X] &=& K \frac{n}{N} - \frac{n(n-1)}{2N} \\&=& \frac{Kn}{N} - \frac{n(n-1)}{2N} \\&=& \frac{2Kn - n(n-1)}{2N} \\&=& \frac{2Kn - n^2 + n}{2N} \\&=& \frac{n(2K - n + 1)}{2N} \\&=& n \frac{K}{N}\end{eqnarray}\]したがって,$E[X] = n\frac{K}{N}$ が示された◻︎

分散

\[ \text{Var}(X) = n\frac{K}{N}\frac{N-K}{N}\frac{N-n}{N-1} \]分散の導出には,2次のモーメント $E[X^2]$ を計算し,$\text{Var}(X) = E[X^2] - (E[X])^2$ を用いる.

まず, $X^2$ の期待値を計算する.\[\begin{eqnarray}E[X^2] &=& E[X(X-1)] + E[X] \\&=& \sum_{i=1}^n \sum_{j \neq i} E[X_i X_j] + E[X]\end{eqnarray}\]ここで, $E[X_i X_j]$ は $i$ 番目と $j$ 番目の試行が共に成功する確率を表している.

したがって,\[\begin{eqnarray}E[X^2] &=& n(n-1)\frac{K}{N} \cdot \frac{K-1}{N-1} + n\frac{K}{N} \\&=& \frac{nK}{N} \left( (n-1)\frac{K-1}{N-1} + 1 \right)\end{eqnarray}\]分散の定義を用いると,\[\begin{eqnarray}\text{Var}(X) &=& E[X^2] - (E[X])^2 \\&=& \frac{nK}{N} \left( (n-1)\frac{K-1}{N-1} + 1 \right) - \left(n\frac{K}{N}\right)^2 \\&=& \frac{nK}{N} \left( (n-1)\frac{K-1}{N-1} + 1 - n\frac{K}{N} \right) \\&=& \frac{nK}{N} \left( \frac{(n-1)(K-1) + (N-1) - nK}{N-1} \right) \\&=& \frac{nK}{N} \cdot \frac{N-K}{N-1} \cdot \frac{N-n}{N} \\&=& n\frac{K}{N}\frac{N-K}{N}\frac{N-n}{N-1}\end{eqnarray}\]

モーメント母関数

\[ M_X(t) = E[e^{tX}] = \frac{\binom{N}{n}}{\binom{N}{K}} \sum_{k=0}^{\min(n,K)} e^{tk} \binom{K}{k}\binom{N-K}{n-k} \]

Mathematics is the language with which God has written the universe.

MindsDB 二項分布の再生性二項分布ベルヌーイ分布ベルヌーイ試行確率分布