データ中心化と射影

データベクトル $\mathbf{X} = (X_1, X_2, \dots, X_n)^\top$ の平均 $\bar{X}$ を用いて,中心化されたデータベクトルを得るために,元のデータベクトル $\mathbf{X}$ からその平均成分を引く.中心化の操作は次のように表現できる.\[\mathbf{X}_c = \mathbf{X} - \bar{X} \mathbf{1}_n\]ここで,$\bar{X}$ はデータの平均であり,$\mathbf{1}_n$ は全ての成分が 1 の $n \times 1$ ベクトルである.中心化後のデータベクトル $\mathbf{X}_c$ は,元のデータベクトルからその平均成分を引いたものである.データの平均成分 $\bar{X}$ を部分空間 $S$ に射影する操作を考える.部分空間 $S$ は,平均成分 $\bar{X}$ を含む直線であると考えることができる.つまり,$S$ はスカラー倍した $\mathbf{1}_n$ のベクトルから構成される.平均成分をこの部分空間 $S$ に射影する射影行列は,次のように表される.\[P_S = \frac{1}{n} \mathbf{1}_n \mathbf{1}_n^\top\]この行列 $P_S$ を用いて,データベクトル $\mathbf{X}$ の平均成分を部分空間 $S$ に射影することができる.\[\mathbf{X}_\text{mean} = P_S \mathbf{X} = \frac{1}{n} \mathbf{1}_n (\mathbf{1}_n^\top \mathbf{X})\]これがデータベクトル $\mathbf{X}$ の平均成分,つまり部分空間 $S$ への射影である.残差ベクトルは $\mathbf{X}$ からその平均成分を引いたもの,つまり中心化されたベクトルである.残差ベクトル $\mathbf{X}_\text{residual}$ は次のように計算される.\[\mathbf{X}_\text{residual} = \mathbf{X} - \mathbf{X}_\text{mean} = \mathbf{X} - P_S \mathbf{X}\]残差ベクトル $\mathbf{X}_\text{residual}$ は,部分空間 $S$ の直交補空間 $S^\perp$ に射影された結果である.直交補空間 $S^\perp$ への射影行列 $P_{S^\perp}$ は次のように与えられる.\[P_{S^\perp} = I - P_S = I - \frac{1}{n} \mathbf{1}_n \mathbf{1}_n^\top\]したがって,残差ベクトルは次のように表される.\[\mathbf{X}_\text{residual} = (I - P_S) \mathbf{X}\]これが,データベクトル $\mathbf{X}$ の部分空間 $S$ への射影を取り除いた残差ベクトルであり,直交補空間 $S^\perp$ に射影された成分である.

つまり,データを中心化する操作は,平均成分を部分空間 $S$ に射影し,残差を直交補空間 $S^\perp$ に射影することとして解釈できる.

補足

データベクトル $\mathbf{X}$ は,次のように直行分解される.\[\mathbf{X} = \mathbf{X}_\text{mean} + \mathbf{X}_\text{residual}\]この分解は,データベクトル $\mathbf{X}$ を部分空間 $S$ と直交補空間 $S^\perp$ に分ける操作であり,それぞれの成分は直交している.\[\mathbf{X}_\text{mean} \perp \mathbf{X}_\text{residual}\]この直行分解の概念を中心化操作に適用すると,データベクトルから平均成分を取り除いた残差成分が得られ,それが直交補空間 $S^\perp$ に射影されていることが分かる.

Mathematics is the language with which God has written the universe.





















測度 母分散と標本分散 正規分布とガンマ分布 スターリングの公式 二項分布と正規分布 深層ボルツマンマシン[DBM]を用いたAdS/CFT対応