二項分布と正規分布

二項分布と正規分布の関係

二項分布 $B(n, p)$ は,試行回数 $n$ が大きくなるにつれて正規分布 $N(np, np(1-p))$ に近づく.すなわち,二項分布を標準化した確率変数は標準正規分布に近づく.

ベルヌーイ試行を$n$回繰り返す二項分布を考える.

成功確率を$p$とし,成功回数を$X$とすると,\[P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}\]

ここで,中心極限定理を適用するため,以下の変数変換を行う.\[Z = \frac{X - np}{\sqrt{np(1-p)}}\]

このとき,$n \to \infty$において,$Z$は標準正規分布に従う.

なぜならば,まず、二項分布の特性関数$\phi_X(t)$を考えると,\[\phi_X(t) = (pe^{it} + (1-p))^n\]

一般に,確率変数 $Y$ が線形変換 $Y = aX + b$ ($a$, $b$ は定数)の場合,特性関数は以下の関係を満たす\[\phi_Y(t) = e^{ibt}\phi_X(at)\]

標準化変数 $Z$ の変換を上記の形に合わせると,\[Z = \frac{1}{\sqrt{np(1-p)}}X + \frac{-np}{\sqrt{np(1-p)}}\]

従って,\[\begin{eqnarray}a &=& \frac{1}{\sqrt{np(1-p)}} \\b &=& \frac{-np}{\sqrt{np(1-p)}}\end{eqnarray}\]

これを特性関数の変換公式に適用すると,\[\phi_Z(t) = \exp\left(i\cdot\frac{-np}{\sqrt{np(1-p)}}\cdot t\right)\cdot\phi_X\left(\frac{t}{\sqrt{np(1-p)}}\right)\]

指数部分を整理すると,\[\exp\left(i\cdot\frac{-np}{\sqrt{np(1-p)}}\cdot t\right) = \exp\left(-\frac{npt}{\sqrt{np(1-p)}}\right)\]

以上より,標準化された変数$Z$の特性関数$\phi_Z(t)$は,\[\phi_Z(t) = \exp\left(-\frac{npt}{\sqrt{np(1-p)}}\right)\phi_X\left(\frac{t}{\sqrt{np(1-p)}}\right)\]

$\log(1+x)$のテイラー展開を用いて,\[\log\phi_Z(t) = n\log\left(1 + p\left(e^{it/\sqrt{np(1-p)}}-1\right)\right)\]

$e^{ix}$のテイラー展開を適用し,$n \to \infty$の極限をとると,\[\lim_{n \to \infty}\log\phi_Z(t) = -\frac{t^2}{2}\]

従って,\[\lim_{n \to \infty}\phi_Z(t) = e^{-t^2/2}\]

これは標準正規分布の特性関数に他ならない.

別の導出法

二項分布の確率質量関数[PMF] は次のように与えられる.\[P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\]ここで,$X$ は成功回数,$n$ は試行回数,$p$ は成功確率である.対数を取ると次のようになる.\[\ln P(X = k) = \ln \binom{n}{k} + k \ln p + (n-k) \ln (1-p)\]スターリングの近似を用いると,二項係数の対数は次のように近似できる.\[\ln \binom{n}{k} \approx n \ln n - k \ln k - (n-k) \ln (n-k) - \frac{1}{2} \ln (2\pi n p (1-p))\]次に,$k$ を次のように変換する.\[k = np + z \sqrt{np(1-p)},\]ここで $z$ は標準化された変数である.この変換により,$k$ は $np$ の周りで変動するようになる.次に,$k \ln k$ を展開する.まず,$k$ を $np + z\sqrt{np(1-p)}$ に置き換える.\[k \ln k = (np + z \sqrt{np(1-p)}) \ln(np + z \sqrt{np(1-p)})\]この式をテイラー展開する.まず,$\ln(np + z \sqrt{np(1-p)})$ を $np$ の周りで展開する.$z$ が小さいと仮定すると,\[\ln(np + z \sqrt{np(1-p)}) = \ln(np) + \frac{z \sqrt{np(1-p)}}{np} - \frac{z^2 np(1-p)}{2(np)^2} + O(z^3)\]これを整理すると次のようになる.\[\ln(np + z \sqrt{np(1-p)}) = \ln(np) + \frac{z}{\sqrt{np(1-p)}} - \frac{z^2}{2np(1-p)} + O(z^3)\]次に,この展開を $k \ln k$ に代入する.\[k \ln k = (np + z \sqrt{np(1-p)}) \left[ \ln(np) + \frac{z}{\sqrt{np(1-p)}} - \frac{z^2}{2np(1-p)} + O(z^3) \right]\]分配法則を使って展開すると,\[k \ln k = np \ln(np) + z \sqrt{np(1-p)} \cdot \frac{z}{\sqrt{np(1-p)}} - np \cdot \frac{z^2}{2np(1-p)} + O(z^3)\]整理すると,\[k \ln k = np \ln(np) + z^2 - \frac{z^2}{2(1-p)} + O(z^3)\]次に,$k \ln p$ と $(n-k) \ln (1-p)$ を展開する.\[k \ln p = (np + z \sqrt{np(1-p)}) \ln p = np \ln p + z \sqrt{np(1-p)} \cdot \frac{\ln p}{np}.\]$z$ に関する項は一次の影響しかないため,無視することができる.最終的には定数項 $np \ln p$ だけが残る.また,\[(n-k) \ln (1-p) = n(1-p) \ln (1-p) - z \sqrt{np(1-p)} \cdot \frac{\ln (1-p)}{np}\]こちらも一次項は無視できる.全ての項を合わせると,最終的な対数確率質量関数は次のようになる.\[\ln P(X = k) = -\frac{z^2}{2} + \text{const.}\]指数関数に戻すと,次のように近似される.\[P(X = k) \approx \frac{1}{\sqrt{2\pi np(1-p)}} \exp\left( - \frac{(k - np)^2}{2np(1-p)} \right)\]

この結果,二項分布は $n$ が大きい場合に次の正規分布で近似されることが示される.\[X \sim N\left(np, np(1-p)\right)\]

留意点

正規分布のように指数関数を使い,それを全区間で積分して正規化する場合には,ガウス積分\[∫_{-\infty}^{\infty} e^{-x²} dx = √π\]の関係から確率密度関数に$\pi$が出てくる.

Mathematics is the language with which God has written the universe.





















辞書 深層ボルツマンマシン[DBM]を用いたAdS/CFT対応 P値 マルコフ核 シュレーディンガー橋問題の簡略化 Triton