情報量

情報量の定義

生起確率 $p(a)$ の事象 $a$ が実際に起こったとき，これを知ることで得られる情報量を，\[I(a) \propto \frac{1}{p(a)}\]と表してみます．

ここで，$\propto$ というのは $y \propto x$ で $y$ は $x$ に比例するということを意味します．

起きると分かっている事象が起こったときは情報量（驚き）は $0$ であるはずということを考えると，\[I(a) \propto \frac{1}{p(a)}\]という定義では，事象 $a$ が起こると分かっている場合は，\[p(a)=1\]であるので，\[I(a) \propto \frac{1}{p(a)}=\frac{1}{p(a)}=1\]となってしまいます．

つまり，上の情報量の定義では起こると分かっている事象が起こった場合の情報量が $0$ にはなりません．

そこで，起こると分かっている事象が起こった場合の情報量が $0$ となるように上の情報量の定義を以下のように修正します．\[I(a):=log_{2}\frac{1}{p(a)}\]ここで，$:=$ という記号は定義を意味します．式を変形すると，\[I(a):=-log_{2}p(a)\]となります．

こうすると，$p(a)=1$ のとき，\[I(a)=-log_{2}1=0\]となり，起こることが分かっている事象が発生した場合の情報量が $0$ になっています．

ちなみに，$p(a)=\frac{1}{2}$ のときは，\[I(a)=-log_{2}\frac{1}{2}=-(-1)=1\]となります．

また，対数の底が $2$ になっているのは，$0$ と $1$ という2進数の1桁で表わされる，コンピュータが扱うデータの最小単位であるビット（bit）に由来します．

情報量は，より一般的には，自己情報量[self-information]として，以下のように定義されます．

自己情報量[self-information]

$P(a)$ を事象 $a$ の生起確率とします．
このとき，\[\mathcal{I}(a)=\log \frac{a}{P(a)}\]を自己情報量といいます．

上の定義で対数の底を書いていませんが，これは底の値に応じて3つの単位が定められていることによります．

単位	底の値
ビット[bit;binary unit]	2
ナット[nat;natural unit]	e
ハートレイ[hartley]	10

平均情報量 average information

ある事象 $A$ を，\[A=\{a_{1},a_{2},\cdots,a_{n}\}\]とし，$p(a_{1})$ の総和を $1$ とし，情報量 $I(a_{i})$ の期待値を $H(A)$ とすると，\[H(A):=\Sigma_{i=1}^{n}p(a_{i})I(a_{i})=-\Sigma_{i=1}^{n}p(a_{i})log_{2}p(a_{i})\]となりますが，これを平均情報量といいます．

平均情報量の性質

$0 \leq H(A) \leq log_{2}n$
$p(a_{1})=1$ で,他は $0$ のときは $H(A)=0$
全ての $a_{i}$ において $p(a_{i})=\frac{1}{n}$ の場合は $H(A)=log_{2}n$ となり平均情報量は最大になります．

熱力学におけるエントロピー（entropy）との関係

熱力学におけるエントロピー（entropy）は次のように表されます．\[H=-K\Sigma_{k}n_{k}\ln n_{k}\]但し，$K$ はボルツマン定数，$n_{k}$ は気体分子の $k$ 番目のエネルギー状態である確率を表します．

情報理論における平均情報量と熱力学のエントロピーは対数の底を除いて一致するので，平均情報量は情報エントロピーと呼ばれます．

Mathematics is the language with which God has written the universe.

最小二乗法 - 情報量 - 世界最古の都市 - Tipologia Edilizia（都市類型学） - 層としての都市