一般化された不偏分散推定量

定義：

$n$ を観測数, $r$ を説明変数の数[定数項を含む], $\mathbf{e}$ を残差ベクトル, $\mathbf{Y}$ を従属変数ベクトル, $\mathbf{I}$ を $n \times n$ の単位行列, \[\mathbf{P}_X = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\]を射影行列とするとき,一般化された不偏分散推定量は,\[s^2 = \frac{1}{n-r} \mathbf{e}^T\mathbf{e} = \frac{1}{n-r} \mathbf{y}^T(\mathbf{I} - \mathbf{P}_X)\mathbf{y}\]と表される.

まず,線形回帰モデルを考える.\[\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\]最小二乗法により $\boldsymbol{\beta}$ の推定値を求める.\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\]残差ベクトル $\mathbf{e}$ が以下のように表すことができる.\[\mathbf{e} = \mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}}\]$\mathbf{e}$ を展開する.\[\begin{eqnarray}\mathbf{e} &=& \mathbf{Y} - \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y} \\ &=& (\mathbf{I} - \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T)\mathbf{Y} \\ &=& (\mathbf{I} - \mathbf{P}_X)\mathbf{Y}\end{eqnarray}\]次に残差平方和[RSS]を計算する.\[\begin{eqnarray}RSS &=& \mathbf{e}^T\mathbf{e} \\ &=& [\mathbf{Y}^T(\mathbf{I} - \mathbf{P}_X)^T][(\mathbf{I} - \mathbf{P}_X)\mathbf{Y}] \\ &=& \mathbf{Y}^T(\mathbf{I} - \mathbf{P}_X)^T(\mathbf{I} - \mathbf{P}_X)\mathbf{Y} \\ &=& \mathbf{Y}^T(\mathbf{I} - \mathbf{P}_X)\mathbf{Y} \end{eqnarray}\]ここで, \[(\mathbf{I} - \mathbf{P}_X)^T = (\mathbf{I} - \mathbf{P}_X) \text{と} (\mathbf{I} - \mathbf{P}_X)(\mathbf{I} - \mathbf{P}_X) = (\mathbf{I} - \mathbf{P}_X)\] を使用した.

射影行列 $\mathbf{P}_X$ の性質として,

$\mathbf{P}_X$ は対称行列: \[\mathbf{P}_X^T = \mathbf{P}_X\]
$\mathbf{P}_X$ は冪等行列: \[\mathbf{P}_X^2 = \mathbf{P}_X\]
$\mathbf{P}_X$ の階数は $r$: \[rank(\mathbf{P}_X) = r\]

であることから,\[tr(\mathbf{I} - \mathbf{P}_X) = n - r\]この性質を用いて, $E[\mathbf{e}^T\mathbf{e}]$ を計算する.\[\begin{eqnarray}E[\mathbf{e}^T\mathbf{e}] &=& E[(\mathbf{I} - \mathbf{P}_X)\boldsymbol{\varepsilon}]^T[(\mathbf{I} - \mathbf{P}_X)\boldsymbol{\varepsilon}] \\ &=& E[\boldsymbol{\varepsilon}^T(\mathbf{I} - \mathbf{P}_X)^T(\mathbf{I} - \mathbf{P}_X)\boldsymbol{\varepsilon}] \\ &=& E[tr(\boldsymbol{\varepsilon}^T(\mathbf{I} - \mathbf{P}_X)\boldsymbol{\varepsilon})] \\ &=& tr((\mathbf{I} - \mathbf{P}_X)E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T]) \\ &=& \sigma^2 tr(\mathbf{I} - \mathbf{P}_X) \\ &=& \sigma^2(n-r)\end{eqnarray}\]したがって,\[E[\frac{1}{n-r}\mathbf{e}^T\mathbf{e}] = \frac{1}{n-r}E[\mathbf{e}^T\mathbf{e}] = \frac{1}{n-r}\sigma^2(n-r) = \sigma^2\]このように,$(n-r)$ で割ることで,不偏推定量となることが示される.

ここで, $(n-r)$ は自由度と呼ばれ,射影行列 $\mathbf{P}_X$ の階数 $r$ と関係している.すなわち,これは, $n$ 個の観測値から $r$ 個のパラメータを推定することによる制約を反映しており,モデルの複雑さと残差の自由度のバランスを表している.

Mathematics is the language with which God has written the universe.

MindsDB 線形制約不偏標本分散標本条件付き分散条件付き期待値