母分散と標本分散

母分散と標本分散の関係

標本分散 $S^2$\[S^2 = \frac{1}{n-1} (\mathbf{X} - \bar{X} \mathbf{1}_n)^\top (\mathbf{X} - \bar{X} \mathbf{1}_n) = \frac{1}{n-1} \mathbf{X}^\top (I - P) \mathbf{X}\]の期待値は母分散の不偏推定量となる.\[\mathbb{E}[S^2] = \frac{1}{n-1} (n-1) \sigma^2 = \sigma^2\]

母分散 $\sigma^2$ は, 母集団の各データ点が母平均 $\mu$ からどれだけ散らばっているかを示す指標である.母分散は次のように定義される.\[\sigma^2 = \mathbb{E}[(X - \mu)^2]\]一方,標本分散 $S^2$ は, 標本データ $X_1, X_2, \dots, X_n$ に基づいて計算され, 次のように定義される.\[S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\]ここで $\bar{X}$ は標本平均である.\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\]標本分散が母分散の不偏推定量であることを示すためには, 次のことが必要である.\[\mathbb{E}[S^2] = \sigma^2\]データベクトル $\mathbf{X} = (X_1, X_2, \dots, X_n)^\top$ を考える.このとき, 標本平均 $\bar{X}$ は次のように表される.\[\bar{X} = \frac{1}{n} \mathbf{1}_n^\top \mathbf{X}\]データの偏差ベクトル $\mathbf{X} - \bar{X} \mathbf{1}_n$ は, 次のように表現できる.\[\mathbf{X} - \bar{X} \mathbf{1}_n = (I - P) \mathbf{X}\]ここで, 射影行列 $ P $ は平均ベクトルへの射影を表し, 次のように定義される.\[P = \frac{1}{n} \mathbf{1}_n \mathbf{1}_n^\top\]標本分散 $ S^2 $ は次のように表される.\[S^2 = \frac{1}{n-1} (\mathbf{X} - \bar{X} \mathbf{1}_n)^\top (\mathbf{X} - \bar{X} \mathbf{1}_n) = \frac{1}{n-1} \mathbf{X}^\top (I - P) \mathbf{X}\]次に, 標本分散の期待値を計算する.標本ベクトル $\mathbf{X}$ の各要素 $X_i$ は独立で, 母平均 $\mu$ と母分散 $\sigma^2$ を持つと仮定する.この場合, 共分散行列は $\sigma^2 I$ となる.期待値を計算すると,\[\mathbb{E}[(\mathbf{X} - \bar{X})^\top (\mathbf{X} - \bar{X})] = \mathbb{E}[\mathbf{X}^\top (I - P) \mathbf{X}] = \sigma^2 \, \text{Tr}[(I - P)]\]トレースを計算すると,\[\text{Tr}[(I - P)] = n - 1\]従って,\[\mathbb{E}[(\mathbf{X} - \bar{X})^\top (\mathbf{X} - \bar{X})] = (n-1) \sigma^2\]最終的に,標本分散の期待値は次のように計算される.\[\mathbb{E}[S^2] = \frac{1}{n-1} (n-1) \sigma^2 = \sigma^2\]これにより, 標本分散が母分散の不偏推定量であることが示された◻︎

Mathematics is the language with which God has written the universe.

MindsDB 正規分布とガンマ分布スターリングの公式二項分布と正規分布深層ボルツマンマシン[DBM]を用いたAdS/CFT対応 P値