最小二乗法

目的

最小二乗法[Ordinary Least Squares;OLS]の目的は複雑な構造を持つデータを少数の式の重ね合わせ[線形結合,linear combination]で表現することにあります.このように大量のデータを少数のデータで表現することを音声や画像に応用する場合はデータ圧縮[data compression]と呼ばれます.最小二乗法はデータ圧縮の一つともいえます.

最良線形予測

$y$ と $x$ という2つのデータがあって,いま,$x$ の値が分かっている場合に,$y$ の値を推測(予測)するということを考えてみます.$x$ と $y$ というデータは次のように表されます.\[\left(\begin{array}{cc}x_{1}\ y_{1}\\x_{2}\ y_{2}\\\vdots \ \vdots\\x_{N}\ y_{N}\end{array}\right)\]$x$ が与えられたとき,$y$ の条件付き期待値 $E(y|x)$ は,$y$ の平均2乗予測誤差を最小にする $x$ の関数となります.

一般的にいうと,$E(y|x)$ は $x$ の非線形関数になります.しかし,ここでは簡単に次のような線形関数を考えることとします.\[f(x)=\beta_{0}+\beta_{1}x\]そうすると,平均2乗予測誤差は,\[E\{(y-b_{0}-b_{1}x)^{2}\}\]と表されます.

この平均最小2乗予測誤差を最小化します.

ここで新たに,\[y=\beta_{1}+\beta_{2}x+u\]となる $u$ という変数を定義します.

この式を,平均2乗予測誤差の\[E\{(y-\beta_{0}-\beta_{1}x)^{2}\}\]に代入します.

\[E(u)=0,E(xu)=0\]という関係を利用すると,\[\begin{align}E\{(y-\beta_{0}-\beta_{1}x)^{2}\}&=E\{u+(\beta_{1}-b_{1})+(\beta_{2}-b_{2})x\}^{2}]\\&=E(u^{2})+[\beta_{1}-b_{1}\ \beta_{2}-b_{2}]\left[\begin{array}{cc}1\ E(x)\\E(x)\ E(x^{2})\end{array}\right]\left[\begin{array}{c}\beta_{1}-b_{1}\\\beta_{2}-b_{2}\end{array}\right]\end{align}\]となります.

さらに,\[x=[1 \ x]'\]とおくと,\[\left[\begin{array}{cc}1\ E(x)\\E(x)\ E(x^{2})\end{array}\right]=E[xx']\]となります.

つまり,\[\begin{align}E\{(y-\beta_{0}-\beta_{1}x)^{2}\}&=E\{u+(\beta_{1}-b_{1})+(\beta_{2}-b_{2})x\}^{2}]\\&=E(u^{2})+[\beta_{1}-b_{1}\ \beta_{2}-b_{2}]\left[\begin{array}{cc}1\ E(x)\\E(x)\ E(x^{2})\end{array}\right]\left[\begin{array}{c}\beta_{1}-b_{1}\\\beta_{2}-b_{2}\end{array}\right]\\&=E(u^{2})+[\beta_{1}-b_{1}\ \beta_{2}-b_{2}] E(xx') \left[\begin{array}{c}\beta_{1}-b_{1}\\\beta_{2}-b_{2}\end{array}\right]\end{align}\]となります.

ここで,任意の2次元ベクトル $a$ に対しては,\[a'xx'a=(a'x) \geq 0\]となり,\[a'E(xx')a=E\{(a'x)^{2}\}\]となるので,\[E(xx')\]は非負定符号行列[nonnegative definite matrix]であり,固有値は全て非負になります.

また,$E(xx')$ の行列式,\[|E(xx')|=E(x^{2})-\{E(x)\}^{2}=var(x)\]となるため,$var(x) > 0$ ならば,$E(xx')$ は正則ということになります.

以上の結果から,\[E\{(y-\beta_{0}-\beta_{1}x)^{2}\}=E(u^{2})+[\beta_{1}-b_{1}\ \beta_{2}-b_{2}] E(xx') \left[\begin{array}{c}\beta_{1}-b_{1}\\\beta_{2}-b_{2}\end{array}\right]\]の右辺第2項は,\[b_{1}=\beta_{1},b_{2}=\beta_{2}\]のときを除いて常に正となります.

よって,$\beta_{1},\beta_{2}$ が最小解であることが分かりました.

この解は最良線形予測[best linear prediction]と呼ばれますが,このように,条件付き期待値とは一般には一致しません.

最小2乗推定量(OLS estimation)

\[S(\beta_{1},\beta_{2})=E\{(y-\beta_{1}-\beta_{2}x)^{2}\}\]を $\beta_{1},\beta_{2}$ で偏微分すると,$S(\beta_{1},\beta_{2})$ が最小化されるためには,\[\frac{\partial S(\beta_{1},\beta_{2})}{\partial \beta_{1}}=0\]\[\frac{\partial S(\beta_{1},\beta_{2})}{\partial \beta_{2}}=0\]が成り立っている必要があります.これは,最小化の1階条件[first-order condition]と言われます.

最小化の1階条件の式を展開すると,合成関数の微分から,\[\frac{\partial S(\beta_{1},\beta_{2})}{\partial \beta_{1}}=2(y-\beta_{1}-\beta_{2}x)=0\]\[\frac{\partial S(\beta_{1},\beta_{2})}{\partial \beta_{1}}=2(y-\beta_{1}-\beta_{2}x)x=0\]となります.

両辺を $2$ で割ると,\[\begin{array}y-\beta_{1}-\beta_{2}x&=0\\(y-\beta_{1}-\beta_{2}x)x&=0\end{array}\]

ここで,先ほどと同じように,\[X=[1 \ x]'\]とおくと,\[\begin{array}(y-\beta_{1}-\beta_{2}x)&=0\\(y-\beta_{1}-\beta_{2}x)x&=0\end{array}\]という2つの式は1つにまとめることが出来て,\[X'(y-X\beta)=0\]と表すことが出来ます.この関係式を正規方程式(normal equation)と言われます.

正規方程式[normal equation]を変形すると,\[X'y-X'X\beta=0\]となり,さらに変形すると,\[X'X\beta=X'y\]となり,$X$ の階数が列数に等しいとすると,$X'X$ は正則であって逆行列が存在します.

従って,\[\beta=(X'X)^{-1}X'y\]となります.

この $\beta$ を最小2乗推定量(OLS estimation)といいます.

ここで,$x$ の平均は $E(x)$ なので,\[(y-\beta_{1}-\beta_{2}x)\]という式は,\[(y-\beta_{1}-\beta_{2}x+\beta_{2}E(x)-\beta_{2}E(x))\]と変形出来ます.

この式を整理すると,\[(y-\beta_{1}-\beta_{2}(x-E(x))-\beta_{2}E(x))\]となります.

この式の期待値をとると,\[E(y-\beta_{1}-\beta_{2}(x-E(x))-\beta_{2}E(x))\]となりますので,さらに変形して,\[E(y)-E(\beta_{1})-E(\beta_{2}x)+E(\beta_{2}E(x))-E(\beta_{2}E(x))\]となり,\[E(y)-\beta_{1}-\beta_{2}E(x)+\beta_{2}E(x)-\beta_{2}E(x)\]つまり,\[E(y)-\beta_{1}-\beta_{2}E(x)\]となるので,\[E(y)-\beta_{1}-\beta_{2}E(x)=0\]から,\[\beta_{1}=E(y)-\beta_{2}E(x)\]となります.

続いて,\[y-\beta_{1}-\beta_{2}x=0\]であることから,\[(x-E(x))(y-\beta_{1}-\beta_{2}x)=0\]となるので,ここに,\[\beta_{1}=E(y)-\beta_{2}E(x)\]を代入すると,\[(x-E(x))(y-(E(y)-\beta_{2}E(x))-\beta_{2}x)=0\]つまり,\[(x-E(x))(y-E(y)+\beta_{2}E(x)-\beta_{2}x)=0\]となるので,さらに,\[(x-E(x))(y-E(y)+\beta_{2}(E(x)-x))=0\]そして,\[(x-E(x))(y-E(y))+(x-E(x))(\beta_{2}(E(x)-x))=0\]となるので,\[(x-E(x))(y-E(y))-\beta_{2}(E(x)-x)^{2}=0\]すなわち,\[\beta_{2}=\frac{(x-E(x))(y-E(y))}{(E(x)-x)^{2}}\]となるので,結局,$\beta_{1},\beta_{2}$ は,\[\begin{align}\beta_{1}&=E(y)-\beta_{2}E(x)\\\beta_{2}&=\frac{E[\{x-E(x)\}\{y-E(y)\}]}{E[\{x-E(x)\}^{2}]}\end{align}\]となります.

Pythonでの例


# coding: utf-8
from __future__ import division
#Python 2.7でimportをすればPython 3風に,Python 2.7では割り算「/」の結果は切り捨てでしたが
#Python 3以降ではちゃんと小数点以下まで保持されるようになります

from matplotlib import pyplot as plt

import numpy as np


def main():
# データ点数は 100 にする
N = 100
# 0 ~ 30 (-15 ~ +15) の範囲で,ランダムに値を散らばらせる
R = 30

#N個のデータを生成して x に代入
x = np.arange(N)

# y = 50 + x の直線に (-5 ~ +5) でランダム性をもたせる
#0x@Ρの一様乱数をN個生成する
y = np.arange(N) + np.random.rand(N) * R - R // 2 + 50

# 平均値と標準偏差
xmean, xsigma2 = x.mean(), x.var()
# 平均値
ymean = y.mean()

# 共分散
sxy = np.sum(x * y) / N - xmean * ymean

# 回帰係数ベータ
beta = sxy / xsigma2
# 回帰係数アルファ
alpha = ymean - beta * xmean

# 得られた回帰直線の一次式
print('y = {0} + {1}x'.format(alpha, beta))

# グラフに回帰直線をひく
ols = np.array([alpha + beta * xi for xi in x])
plt.plot(x, ols, color='r')

# 元データもプロットする
plt.scatter(x, y)

# グラフを表示する
plt.xlabel('x')
plt.ylabel('y')
plt.grid()
plt.show()


if __name__ == '__main__':
main()

Mathematics is the language with which God has written the universe.





















二項分布とポアソン分布の関係 情報量 世界最古の都市 Tipologia Edilizia(都市類型学) 層としての都市 都市構造の普遍性