情報量

情報量の定義

生起確率 $p(a)$ の事象 $a$ が実際に起こったとき,これを知ることで得られる情報量を,\[I(a) \propto \frac{1}{p(a)}\]と表してみる.

ここで,$\propto$ というのは $y \propto x$ で $y$ は $x$ に比例するということを意味する.

起きると分かっている事象が起こったときは情報量[=驚き]は $0$ であるはずということを考えると,\[I(a) \propto \frac{1}{p(a)}\]という定義では,事象 $a$ が起こると分かっている場合は,\[p(a)=1\]であるので,\[I(a) \propto \frac{1}{p(a)}=\frac{1}{p(a)}=1\]となってしまう.

つまり,上の情報量の定義では起こると分かっている事象が起こった場合の情報量が $0$ にはならない.

そこで,起こると分かっている事象が起こった場合の情報量が $0$ となるように上の情報量の定義を以下のように修正することとする.\[I(a):=log_{2}\frac{1}{p(a)}\]ここで,$:=$ という記号は定義を意味している.式を変形すると,\[I(a):=-log_{2}p(a)\]となる.

こうすると,$p(a)=1$ のとき,\[I(a)=-log_{2}1=0\]となり,起こることが分かっている事象が発生した場合の情報量が $0$ になる.

ちなみに,$p(a)=\frac{1}{2}$ のときは,\[I(a)=-log_{2}\frac{1}{2}=-(-1)=1\]となる.

また,対数の底が $2$ になっているのは,$0$ と $1$ という2進数の1桁で表わされる,コンピュータが扱うデータの最小単位であるビット[bit]に由来している.

情報量は,より一般的には,自己情報量[self-information]として,以下のように定義される.

自己情報量[self-information]

$P(a)$ を事象 $a$ の生起確率とする.
このとき,\[\mathcal{I}(a)=\log \frac{a}{P(a)}\]を自己情報量という.

上の定義で対数の底を書いていないが,これは底の値に応じて3つの単位が定められていることによる.

単位底の値
ビット[bit;binary unit]2
ナット[nat;natural unit]e
ハートレイ[hartley]10

平均情報量 average information

ある事象 $A$ を,\[A=\{a_{1},a_{2},\cdots,a_{n}\}\]とし,$p(a_{1})$ の総和を $1$ とし,情報量 $I(a_{i})$ の期待値を $H(A)$ とすると,\[H(A):=\Sigma_{i=1}^{n}p(a_{i})I(a_{i})=-\Sigma_{i=1}^{n}p(a_{i})log_{2}p(a_{i})\]となるが,これを平均情報量という.

平均情報量の性質

熱力学におけるエントロピー[entropy]との関係

熱力学におけるエントロピー[entropy]は次のように表される.\[H=-K\Sigma_{k}n_{k}\ln n_{k}\]但し,$K$ はボルツマン定数,$n_{k}$ は気体分子の $k$ 番目のエネルギー状態である確率を表している.

情報理論における平均情報量と熱力学のエントロピーは対数の底を除いて一致するので,平均情報量は情報エントロピーと呼ばれる.

Mathematics is the language with which God has written the universe.





















前史1940's1950's1960's1970's1980's1990's2000's