相関

定義:correlation

一方が変化すれば他方も変化するように相互に関係しあうことを相関という.すなわち,変数 $X$ と $Y$ の間の相互情報量を $I(X;Y)$ とし,$X$ と $Y$ の同時確率分布を $p(x,y)$ , $X$ と $Y$ の周辺確率分布を,それぞれ,$p(x),p(y)$ とするとき,\[I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \left(\frac{p(x,y)}{p(x)p(y)}\right)\]と定義される.

相互情報量を用いた,この定義においては,$I(X;Y) \geq 0$ であり,等号は $X$ と $Y$ が独立の場合にのみ成立する.また,$I(X;Y)$ が大きいほど, $X$ と $Y$ の間の相関が強いことを示す.さらに,この定義は線形・非線形の関係性を捉えることができる.

相関を表す指標としては共分散[covariance]や相関係数[correlation coefficient]がある.

共分散との関係

共分散は2つの変数の線形関係を測る指標である.

${Cov}(X,Y)$を $X$ と $Y$ の共分散, $X$ と $Y$ の標準偏差を,それぞれ, $\sigma_X, \sigma_Y$ とする.このとき,二変量正規分布の場合,相互情報量共分散の間には以下の関係がある.\[I(X;Y) = -\frac{1}{2}\log(1-\rho^2)\]但し,\[\rho = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}\]

関係式の導出過程

二変量正規分布の確率密度関数は,\[f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_X)^2}{\sigma_X^2} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} - \frac{2\rho(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y}\right]\right)\]である.なお,$\mu_X, \mu_Y$ は平均, $\sigma_X, \sigma_Y$ は標準偏差, $\rho$ は相関係数.

次に,$X$ と $Y$ の周辺確率密度関数は以下のようになる.\[f_X(x) = \frac{1}{\sqrt{2\pi\sigma_X^2}} \exp\left(-\frac{(x-\mu_X)^2}{2\sigma_X^2}\right)\]\[f_Y(y) = \frac{1}{\sqrt{2\pi\sigma_Y^2}} \exp\left(-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)\]続いて,相互情報量の式の対数項を計算する.\[\log\left(\frac{f(x,y)}{f_X(x)f_Y(y)}\right) = \log\left(\frac{1}{\sqrt{1-\rho^2}}\right) + \frac{\rho(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y(1-\rho^2)} - \frac{\rho^2(x-\mu_X)^2}{2\sigma_X^2(1-\rho^2)} - \frac{\rho^2(y-\mu_Y)^2}{2\sigma_Y^2(1-\rho^2)}\]この対数項の期待値を計算する.\[E\left[\frac{(X-\mu_X)(Y-\mu_Y)}{\sigma_X\sigma_Y}\right] = \rho\]\[E\left[\frac{(X-\mu_X)^2}{\sigma_X^2}\right] = E\left[\frac{(Y-\mu_Y)^2}{\sigma_Y^2}\right] = 1\]これらを用いて,相互情報量を計算すると,\[I(X;Y) = -\frac{1}{2}\log(1-\rho^2) + \frac{\rho^2}{2(1-\rho^2)} - \frac{\rho^2}{2(1-\rho^2)} - \frac{\rho^2}{2(1-\rho^2)}\]最後の3項は相殺されるので,最終的に以下の結果が得られる.\[I(X;Y) = -\frac{1}{2}\log(1-\rho^2)\]

相関係数との関係

相関係数共分散を標準化したものである.二変量正規分布の場合,相互情報量相関係数の間には以下の関係がある.\[I(X;Y) = -\frac{1}{2}\log(1-\rho^2)\]但し,$\rho$ は $X$ と $Y$ のピアソン相関係数である.

相互情報量による相関の定義の特徴

Mathematics is the language with which God has written the universe.





















情報エントロピー 変動係数 ツォルンの補題 ハーン-バナッハの拡張定理 リースの表現定理 ボホナーの定理