よんログ

情報理論

(自己) 情報量

(自己) 情報量 (entropy) とは、情報理論の概念で情報の「稀少さ」を表す指標である。 情報が稀少であるほど、情報量は大きくなる。

ある事象 EE が起こる確率を p(E)p(E) とすると、その情報量 i(E)i(E) は次のように定義される。

i(E)=log2p(E)[bit]i(E) = - \log_2 p(E)\quad \text{[bit]}
導出

前提として、情報量は以下の性質を満たすとする:

  • 単調減少性: 事象の確率が高いほど情報量は小さくなる。
  • 連続性
  • 加法性: 事象 E,FE, F が独立で、それぞれ p,qp, q の確率で起こるとき、両方の事象が起こることの情報量はそれぞれの情報量の和に等しい。 f(pq)=f(p)+f(q)f(pq) = f(p) + f(q)
f(pq)=f(p)+f(q)f(pq) = f(p) + f(q)

を関数方程式として解くと f(p)=Clogpf(p) = - C \log p となる。

ここで f(12)=1f(\frac{1}{2}) = 1 となるように CC を定めると f(p)=log2pf(p) = - \log_2 p となる。

シャノン情報量

シャノン情報量 (Shannon entropy) とは、ある確率変数の「不確かさ」を表す指標である。

H(X)=xXp(x)log2p(x)H(X) = - \sum_{x \in X} p(x) \log_2 p(x)

同時エントロピー

同時エントロピー (joint entropy) とは、ある2つの事象が同時に起こる事象の情報量である。

ある事象 XXYY が同時に起こる確率を p(x,y)p(x, y) とすると、その同時エントロピー H(X,Y)H(X, Y) は次のように定義される。

H(X,Y)=xXyYp(x,y)log2p(x,y)H(X, Y) = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x, y)

条件付きエントロピー

条件付きエントロピー (conditional entropy) とは、ある確率変数の情報が与えられたときの、別の確率変数の情報量である。

ある事象 XX が与えられたときの事象 YY の条件付きエントロピー H(YX)H(Y|X) は次のように定義される。

H(XY)=xXyYp(x,y)log2p(xy)H(X|Y) = - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x|y)

チェインルール

H(X,Y)=H(X)+H(YX)H(X, Y) = H(X) + H(Y|X)
証明

p(x,y)=p(x)p(yx)p(x, y) = p(x) p(y|x) であることから

H(X,Y)=xXyYp(x,y)log2p(x,y)=xXyYp(x,y)log2p(x)p(yx)=xXyYp(x,y){log2p(x)+log2p(yx)}=xXyYp(x,y)log2p(x)xXyYp(x,y)log2p(yx)\begin{aligned} H(X, Y) &= - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x, y)\\ &= - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x) p(y|x)\\ &= - \sum_{x \in X} \sum_{y \in Y} p(x, y) \{ \log_2 p(x) + \log_2 p(y|x) \}\\ &= - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x) - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(y|x)\\ \end{aligned}

ここで yYp(x,y)=p(x)\sum_{y \in Y} p(x, y) = p(x) であることから

H(X,Y)=xXp(x)log2p(x)xXyYp(x,y)log2p(yx)=xXp(x)log2p(x)xXp(x)yYp(yx)log2p(yx)=xXp(x)log2p(x)xXp(x)H(YX=x)=H(X)+H(YX)\begin{aligned} H(X, Y) &= - \sum_{x \in X} p(x) \log_2 p(x) - \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(y|x)\\ &= - \sum_{x \in X} p(x) \log_2 p(x) - \sum_{x \in X} p(x) \sum_{y \in Y} p(y|x) \log_2 p(y|x)\\ &= - \sum_{x \in X} p(x) \log_2 p(x) - \sum_{x \in X} p(x) H(Y|X=x)\\ &= H(X) + H(Y|X) \end{aligned}

相互情報量

相互情報量 (mutual information) とは、2つの確率変数の相互依存度を表す指標である。

I(X;Y)=H(X)+H(Y)H(X,Y)I(X; Y) = H(X) + H(Y) - H(X, Y)

KLダイバージェンス

KLダイバージェンス (Kullback-Leibler divergence) とは、確率分布 ppqq がどれだけ離れているかを表す指標である。

D(pq)=xp(x)logp(x)q(x)D(p||q) = \sum_{x} p(x) \log \dfrac{p(x)}{q(x)}

KLダイバージェンスは非対称である

p,qD(pq)D(qp)\exists p, q \quad D(p||q) \neq D(q||p)
相互情報量はKLダイバージェンスの一種であることの証明
I(X;Y)=H(X)+H(Y)H(X,Y)=xXp(x)log2p(x)yYp(y)log2p(y)+xXyYp(x,y)log2p(x,y)\begin{aligned} I(X; Y) &= H(X) + H(Y) - H(X, Y)\\ &= - \sum_{x \in X} p(x) \log_2 p(x) - \sum_{y \in Y} p(y) \log_2 p(y) + \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 p(x, y)\\ \end{aligned}

ここで p(x)=yYp(x,y),p(y)=xXp(x,y)p(x) = \sum_{y \in Y} p(x, y), p(y) = \sum_{x \in X} p(x, y) であることから

I(X;Y)=xXyYp(x,y)log2p(x,y)p(x)p(y)=D(p(x,y)p(x)p(y))\begin{aligned} I(X; Y) &= \sum_{x \in X} \sum_{y \in Y} p(x, y) \log_2 \dfrac{p(x, y)}{p(x) p(y)}\\ &= D(p(x, y)||p(x)p(y)) \end{aligned}