跳到主要内容

信息论

信息大小的计算

信息熵:拥有 MM 个状态的 NN 个时间的信息量为 Nlog2MN\log_2M bit

香农信息熵:对于某事件,发生概率为 pp,则其信息量为 log2p-\log_2p bit

XX 为拥有 MM 个状态的随机变量,其概率分布为 P(X)P(X),则 XX 的熵为:

H(X)=i=1MP(xi)log2P(xi)H(X) = -\sum_{i=1}^{M}P(x_i)\log_2P(x_i)

联合熵

联合熵表示两个随机变量的熵,定义为:

H(X,Y)=i=1Mj=1NP(xi,yj)log2P(xi,yj)H(X,Y) = -\sum_{i=1}^{M}\sum_{j=1}^{N}P(x_i,y_j)\log_2P(x_i,y_j)

条件熵

条件熵表示在已知随机变量 YY 的条件下随机变量 XX 的熵,定义为:

H(XY)=i=1Mj=1NP(xi,yj)log2P(xiyj)H(X|Y) = -\sum_{i=1}^{M}\sum_{j=1}^{N}P(x_i,y_j)\log_2P(x_i|y_j)

:条件熵是对所有条件概率的统计,而不是某一个条件概率的统计。

链式法则

H(X1:n)=i=1nH(XiX1:i1)H(X_{1:n}) = \sum_{i=1}^{n}H(X_i|X_{1:i-1})

互信息 (交叉熵)

互信息表示两个随机变量之间的相关性,定义为:

I(X;Y)=xXP(x)log2Q(x)=H(X)+H(Y)H(X,Y)=H(X)H(XY)=H(Y)H(YX)\begin{aligned} I(X;Y) &= \sum_{x\in X} P(x) \log_2 Q(x) \\ &= H(X) + H(Y) - H(X,Y) \\ &= H(X) - H(X|Y) \\ &= H(Y) - H(Y|X) \end{aligned}

KL 散度 (相对熵)

KL 散度表示两个分布之间的差异,定义为:

DKL(PQ)=i=1MP(xi)logP(xi)Q(xi)=H(P,Q)H(P)\begin{aligned} D_{KL}(P||Q) &= \sum_{i=1}^{M}P(x_i)\log\frac{P(x_i)}{Q(x_i)} \\ &= H(P,Q) - H(P) \end{aligned}