生起確率 $p(a)$ の事象 $a$ が実際に起こったとき,これを知ることで得られる情報量を,\[I(a) \propto \frac{1}{p(a)}\]と表してみる.
ここで,$\propto$ というのは $y \propto x$ で $y$ は $x$ に比例するということを意味する.
起きると分かっている事象が起こったときは情報量[=驚き]は $0$ であるはずということを考えると,\[I(a) \propto \frac{1}{p(a)}\]という定義では,事象 $a$ が起こると分かっている場合は,\[p(a)=1\]であるので,\[I(a) \propto \frac{1}{p(a)}=\frac{1}{p(a)}=1\]となってしまう.
つまり,上の情報量の定義では起こると分かっている事象が起こった場合の情報量が $0$ にはならない.
そこで,起こると分かっている事象が起こった場合の情報量が $0$ となるように上の情報量の定義を以下のように修正することとする.\[I(a):=log_{2}\frac{1}{p(a)}\]ここで,$:=$ という記号は定義を意味している.式を変形すると,\[I(a):=-log_{2}p(a)\]となる.
こうすると,$p(a)=1$ のとき,\[I(a)=-log_{2}1=0\]となり,起こることが分かっている事象が発生した場合の情報量が $0$ になる.
ちなみに,$p(a)=\frac{1}{2}$ のときは,\[I(a)=-log_{2}\frac{1}{2}=-(-1)=1\]となる.
また,対数の底が $2$ になっているのは,$0$ と $1$ という2進数の1桁で表わされる,コンピュータが扱うデータの最小単位であるビット[bit]に由来している.
情報量は,より一般的には,自己情報量[self-information]として,以下のように定義される.
自己情報量[self-information]
上の定義で対数の底を書いていないが,これは底の値に応じて3つの単位が定められていることによる.
単位 | 底の値 |
ビット[bit;binary unit] | 2 |
ナット[nat;natural unit] | e |
ハートレイ[hartley] | 10 |
ある事象 $A$ を,\[A=\{a_{1},a_{2},\cdots,a_{n}\}\]とし,$p(a_{1})$ の総和を $1$ とし,情報量 $I(a_{i})$ の期待値を $H(A)$ とすると,\[H(A):=\Sigma_{i=1}^{n}p(a_{i})I(a_{i})=-\Sigma_{i=1}^{n}p(a_{i})log_{2}p(a_{i})\]となるが,これを平均情報量という.
情報理論における平均情報量と熱力学のエントロピーは対数の底を除いて一致するので,平均情報量は情報エントロピーと呼ばれる.