定義:information entropy
各事象の情報量 $I(x_i)$ は, $p(x_i)$ を事象 $x_i$ の確率とすると,\[I(x_i) = -\log_2 p(x_i)\]と定義される.従って,情報エントロピーは,各事象の情報量の期待値[平均]として解釈できる.\[H(P) = E[I(X)] = \sum_{i=1}^n p_i I(x_i) = -\sum_{i=1}^n p_i \log_2 p_i\]
公平なコイン投げの場合の情報エントロピーは以下のようになる.\[H(P) = -(\frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2}) = 1 \text{ bit}\]
正規分布は,与えられた平均と分散という制約条件下で最大の情報エントロピーを持つ唯一の分布である.ガンマ分布,ベータ分布などは,同じ平均と分散を持つ正規分布よりも常に低い情報エントロピーを持つ.このことは,これらの分布が正規分布よりも,より多くの構造や,より多くの情報を含んでいることを意味している.
なお,サイコロのように,各目が出る確率が等しい場合[公平なサイコロ]においては,最大の情報エントロピーを持つのは一様分布である.
Mathematics is the language with which God has written the universe.