スチューデントのt検定の統計量
この検定統計量 $t$ は,母集団が正規分布に従う場合に,自由度 $n−1$ の t分布 に従う.
母集団が正規分布 $N(\mu, \sigma^2)$ に従う場合,標本平均 $\bar{X}$ も正規分布に従います:\[\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\]これを標準化すると次の形になる(ここで $Z$ は標準正規分布).\[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\]但し,中心極限定理により,標本サイズ $n$ が十分に大きければ, $\bar{X}$ は正規分布に近づくため,母集団が正規分布でなくても,$\bar{X}$ が正規分布に近似されることが保証される.
また,標本分散 $S^2$ は次のように定義される.\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2\]母分散 $\sigma^2$ を基準とした $S^2$ は,自由度 $n - 1$ のカイ二乗分布に従う.\[\frac{(n - 1) S^2}{\sigma^2} \sim \chi^2_{n - 1}\]以上から,標本平均と標本分散を組み合わせて検定統計量 $t$ を作る.\[t = \frac{\bar{X} - \mu}{S / \sqrt{n}}\]$\bar{X}$ の標準化された値と $S^2$ は統計的に独立である(母集団が正規分布の場合の性質).従って, $Z$ を標準正規分布,$\chi^2$ をカイ二乗分布として,次の形で表すことができる. \[ t = \frac{Z}{\sqrt{\chi^2_{n - 1} / (n - 1)}} \]この比は自由度 $n - 1$ のt分布に従う.
t検定は,例えば,裾がやや重い程度の分布でも,母集団がある程度,正規分布に近い形状であれば,実用的に良い結果をもたらすことが知られている.なお,母集団が極端に非正規的な分布の場合,t検定は信頼性が低下する.但し,正規分布から大きく外れている場合でも,標本平均の分布が中心極限定理によって正規分布で近似できるため,t検定は一定の頑健性を持つ.
つまり,検定統計量 $t$ は標本平均を標準偏差でスケール調整したものであるため,母集団の具体的な形状にそれほど依存しない.
注意が必要なのは,スチューデントのt検定は,2つの群の母分散が等しいという仮定が必要となること.一方,ウェルチのt検定は,母分散が等しいという仮定を必要としないため,等分散性の検定を行うことなく,スチューデントのt検定を使わずに最初からウェルチのt検定を使うことが推奨される.
Mathematics is the language with which God has written the universe.