パラメータを $w$ とすると,確率密度関数は,\[\varphi(w)\]と表されます.
この確率密度関数はパラメータ上の確率分布を表現しているので事前分布(a priori distribution)とも言われます.
また,条件付確率密度関数\[p(x|w)\]は,パラメータ $w$ によって定まる $x$ の確率分布を表現する学習モデル(learning machine)と言われます.
学習モデル(learning machine)は統計モデル(statistical model)とも言われます.
上の確率密度関数に従う $n$ 個の確率変数を $X_{1},X_{2},\cdots,X_{n}$ として,これをサンプル(sample)と呼ぶとき,確率密度関数\[p(w|X^{n})\]はサンプルが得られたもとでのパラメータの確率分布を表現しているので,事後確率分布(a posteriori distribution)と言います.
サンプルをもとにした学習によって,将来の $x$ を予測した分布は,\[p(x|X^{n})\]と表され,予測分布(predictive distribution)と言われます.
2つの確率分布の差異を計る尺度として,1951年にソロモン・カルバックとリチャード・ライブラーが提案したカルバック・ライブラー情報量があります.
このカルバック・ライブラー情報量は変数変換について不変であるために自己情報量やエントロピーよりも基本的な概念だと考えられています.
$\mathbb{R}^{N}$ 上に,$q(x),p(x)$ という2つの確率密度関数があるとき,$q(x),p(x)$ 間の相対エントロピー(relative entropy)\[K(q\|p)=\int q(x)\log\frac{q(x)}{p(x)}dx\]を,カルバック・ライブラー情報量(Kullback-Leibler divergence)と言います.数学的な距離の公理を満たしませんが,カルバック・ライブラー距離とも言われます.
$q(x),p(x)$ が可測集合 $Y$ 上の確率測度であって,$q(x),p(x)$ が測度 $\mu$ に対して絶対連続であるときは,カルバック・ライブラー情報量(Kullback-Leibler divergence)は一般的には以下のように表現されます.\[K(q\|p)=\int_{Y}\frac{dp(x)}{d\mu}\log\frac{dp(x)/d\mu}{dq(x)/d\mu}d\mu\]但し,ここで,\[\frac{dp(x)}{d\mu},\frac{dq(x)}{d\mu}\]はラドン・ニコディム導関数(Radon-Nikodym Derivative)です.
カルバック・ライブラー情報量の性質としては以下の2つがあります.
Mathematics is the language with which God has written the universe.