偏相関係数

定義:partial correlation coefficient

偏相関係数は,他の変数の影響を取り除いた後の2つの変数間の相関を測る指標である.

3つの変数 $X$, $Y$, $Z$ があるとき, $Z$ の影響を制御した上での $X$ と $Y$ の偏相関係数は以下のように定義される.\[\rho_{XY|Z} = \frac{\rho_{XY} - \rho_{XZ}\rho_{YZ}}{\sqrt{(1-\rho_{XZ}^2)(1-\rho_{YZ}^2)}}\]ここで,$\rho_{XY|Z}$ は $Z$ を制御した後の $X$ と $Y$ の偏相関係数, $\rho_{XY}$ は $X$ と $Y$ の相関係数,$\rho_{XZ}$ は $X$ と $Z$ の相関係数,$\rho_{YZ}$ は $Y$ と $Z$ の相関係数.

より一般的に, $n$ 個の変数 \[X_1, X_2, ..., X_n\] があり, $X_i$ と $X_j$ の偏相関係数を他のすべての変数を制御して求める場合,\[\rho_{ij|rest} = -\frac{p_{ij}}{\sqrt{p_{ii}p_{jj}}}\]となる.ここで,$\rho_{ij|rest}$ は他のすべての変数を制御した後の $X_i$ と $X_j$ の偏相関係数,$p_{ij}$ は相関行列の逆行列の $(i,j)$ 要素.

導出の過程

3変数 $X$, $Y$, $Z$ の場合を考え,$Z$ の影響を制御した上での $X$ と $Y$ の偏相関係数 $ρ_{XY|Z}$ を導出する.まず,\[X = a_1 + b_1Z + ε_1\]\[Y = a_2 + b_2Z + ε_2\]を考える.ここで,$a_1, a_2$ は切片,$b_1, b_2$ は回帰係数,$ε_1, ε_2$ は誤差.

次に,$X$ と $Y$ の $Z$ に対する残差を計算する.\[e_X = X - (a_1 + b_1Z) = ε_1\]\[e_Y = Y - (a_2 + b_2Z) = ε_2\]偏相関係数は,これらの残差 $e_X$ と $e_Y$ の相関係数として定義される.\[\rho_{XY|Z} = \frac{Cov(e_X, e_Y)}{\sqrt{Var(e_X)Var(e_Y)}}\]続いて,共分散分散を展開する.\[\begin{eqnarray}Cov(e_X, e_Y) &=& Cov(X - b_1Z, Y - b_2Z)\\ &=& Cov(X,Y) - b_2Cov(X,Z) - b_1Cov(Y,Z) + b_1b_2Var(Z)\end{eqnarray}\]\[\begin{eqnarray}Var(e_X) &=& Var(X - b_1Z) = Var(X) + b_1^2Var(Z) - 2b_1Cov(X,Z)\\Var(e_Y) &=& Var(Y - b_2Z) = Var(Y) + b_2^2Var(Z) - 2b_2Cov(Y,Z)\end{eqnarray}\]以上を整理すると,\[\rho_{XY|Z} = \frac{\rho_{XY} - \rho_{XZ}\rho_{YZ}}{\sqrt{(1-\rho_{XZ}^2)(1-\rho_{YZ}^2)}}\]

なお,以上は線形関係を仮定しており,変数間の関係が線形でない場合には適用できない.

Mathematics is the language with which God has written the universe.





















情報エントロピー 相関 変動係数 ツォルンの補題 ハーン-バナッハの拡張定理 リースの表現定理