生起確率 $p(a)$ の事象 $a$ が実際に起こったとき,これを知ることで得られる情報量を,\[I(a) \propto \frac{1}{p(a)}\]と表してみます.
ここで,$\propto$ というのは $y \propto x$ で $y$ は $x$ に比例するということを意味します.
起きると分かっている事象が起こったときは情報量(驚き)は $0$ であるはずということを考えると,\[I(a) \propto \frac{1}{p(a)}\]という定義では,事象 $a$ が起こると分かっている場合は,\[p(a)=1\]であるので,\[I(a) \propto \frac{1}{p(a)}=\frac{1}{p(a)}=1\]となってしまいます.
つまり,上の情報量の定義では起こると分かっている事象が起こった場合の情報量が $0$ にはなりません.
そこで,起こると分かっている事象が起こった場合の情報量が $0$ となるように上の情報量の定義を以下のように修正します.\[I(a):=log_{2}\frac{1}{p(a)}\]ここで,$:=$ という記号は定義を意味します.式を変形すると,\[I(a):=-log_{2}p(a)\]となります.
こうすると,$p(a)=1$ のとき,\[I(a)=-log_{2}1=0\]となり,起こることが分かっている事象が発生した場合の情報量が $0$ になっています.
ちなみに,$p(a)=\frac{1}{2}$ のときは,\[I(a)=-log_{2}\frac{1}{2}=-(-1)=1\]となります.
また,対数の底が $2$ になっているのは,$0$ と $1$ という2進数の1桁で表わされる,コンピュータが扱うデータの最小単位であるビット(bit)に由来します.
情報量は,より一般的には,自己情報量[self-information]として,以下のように定義されます.
自己情報量[self-information]
上の定義で対数の底を書いていませんが,これは底の値に応じて3つの単位が定められていることによります.
単位 | 底の値 |
ビット[bit;binary unit] | 2 |
ナット[nat;natural unit] | e |
ハートレイ[hartley] | 10 |
ある事象 $A$ を,\[A=\{a_{1},a_{2},\cdots,a_{n}\}\]とし,$p(a_{1})$ の総和を $1$ とし,情報量 $I(a_{i})$ の期待値を $H(A)$ とすると,\[H(A):=\Sigma_{i=1}^{n}p(a_{i})I(a_{i})=-\Sigma_{i=1}^{n}p(a_{i})log_{2}p(a_{i})\]となりますが,これを平均情報量といいます.
情報理論における平均情報量と熱力学のエントロピーは対数の底を除いて一致するので,平均情報量は情報エントロピーと呼ばれます.
Mathematics is the language with which God has written the universe.