線形回帰のための正則化手法

\[min_{(\beta_{0},\beta)\in\mathbb{R}^{p+1}}R_{\lambda}(beta_{0},\beta)=min_{(\beta_{0},\beta)\in\mathbb{R}^{p+1}}[\frac{1}{2N}\sum_{i=1}^{N}(y_{i}-\beta_{0}-x_{i}^{T}\beta)^{2}+\lambda P_{\alpha}(\beta)]\]\[P_{\alpha}(\beta)=\sum_{j=1}^{p}[\frac{1}{2}(1-\alpha)\beta_{j}^{2}+\alpha|\beta_{j}|]\]

$\alpha=0$ のとき，Ridge回帰といいます．
$\alpha=1$ のとき，Lasso回帰といいます．
$0 < \alpha < 1$ のとき，Elastic Netといいます．
Complexity Parameter　と言われる $\lambda=0$ のとき，最小二乗法となります．

ここで，正則加項 $\beta_{j}$をL1ノルム，$\beta_{j}^{2}$ をL2ノルムとも言います．

線形回帰モデルでは，標準的仮定が成り立つならば，最小二乗推定量（OLS）が最良線形不偏となります．ところが，「多重共線性」や「外れ値」が存在する場合は不安定になることが知られています．

多重共線性がある場合の最小二乗推定量の安定化を図るために， A.E.HoerlとR.W.Kennardは1970年に「Ridge regression:Biased estimation for nonorthogonal problems」（Technoetrics.,1970,12,55-67）で Ridge回帰を提案しました．Ridge回帰推定量は偏りを持つ推定量ですが，適切なパラメータによって最小二乗推定量よりも平均二乗誤差を小さくすることが可能となります．もっとも，Ridge回帰推定量は「外れ値」に対しては有効ではありません．

Mathematics is the language with which God has written the universe.

二項分布とポアソン分布の関係ベルヌーイ分布ラドン・ニコディムの定理カルバック・ライブラー情報量ユニット入力，出力と学習器