ここでは、「平成24年度【春期】【秋期】 応用情報技術者 合格教本 (情報処理技術者試験)」における「情報理論」の情報の量と質の定量化を深堀します。
最初に、情報の量がどのように定量化されるかを見ていきます。
まず、ある事象Jの起こる確率P(J)がわかっているとします。このことは、我々が事象Jについての情報(Jが確率P(J)で起こるということ)を持っていることになります。そして、この情報の量 I(J)は次の式で表すことができます。
数式は、P(J)の2を底とする対数をとっていますが、これは事象Jの情報をビット単位で表現するための処理と考えることができます。例として、P(J)=0.5のときのI(J)=1を採ってみると、Jが起きるときと起きないときは等確率なので、Jが起きないことを{0}、Jが起きることを{1}として1ビットで表すことが出来ます。
次は、平均情報量(エントロピー)と言われる情報の質を表す量を説明していきます。
まず、1=P(J1)+P(J2)+・・・+P(JN)を満たす、事象J1、J2・・・JNがあるとします。そして我々は、J1、J2・・・JNについての情報として、それらの起きる確率P(J1)、P(J2)、・・・、P(JN)を知っているとします。このとき、これらの事象J1、J2・・・JNについての情報P(J1)、P(J2)・・・、P(JN)の質は、
として表すことが出来ます。Hは、大きいほど情報の質が低く、小さいほど情報の質が高くなります。
Hは各事象が全て等確率のとき最大値をとり、確率にばらつきがあるほど小さい値をとります。これは直感的にも受け入れやすいと思います。というのは、我々が事象J1、J2・・・JNのどれか一つが起きることは知っているとしても、その生起確率の情報は全くないとしたとき、それぞれが等確率で起こると予想するのは自然です。さらに、もし情報P(J1)、P(J2)、・・・、P(JN)を我々が知っていて、低い確率をとるものや、高い確率をとるものがあれば、生起確率の低い事象は起こらないとして捨て、生起確率の高い事象が起こるとして、我々はその事象が起こることを前提にした物事の進め方ができるわけです。
またこの量は、情報量の期待値として定義されていますが、これから導き出せる解釈については考え中です。もし、有益な考えを持っている人がいれば、教えていただきたいです。