信息大小的计算
信息熵:拥有 M 个状态的 N 个时间的信息量为 Nlog2M bit
香农信息熵:对于某事件,发生概率为 p,则其信息量为 −log2p bit
令 X 为拥有 M 个状态的随机变量,其概率分布为 P(X),则 X 的熵为:
H(X)=−i=1∑MP(xi)log2P(xi)
联合熵
联合熵表示两个随机变量的熵,定义为:
H(X,Y)=−i=1∑Mj=1∑NP(xi,yj)log2P(xi,yj)
条件熵
条件熵表示在已知随机变量 Y 的条件下随机变量 X 的熵,定义为:
H(X∣Y)=−i=1∑Mj=1∑NP(xi,yj)log2P(xi∣yj)
注:条件熵是对所有条件概率的统计,而不是某一个条件概率的统计。
链式法则
H(X1:n)=i=1∑nH(Xi∣X1:i−1)
互信息 (交叉熵)
互信息表示两个随机变量之间的相关性,定义为:
I(X;Y)=x∈X∑P(x)log2Q(x)=H(X)+H(Y)−H(X,Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
KL 散度 (相对熵)
KL 散度表示两个分布之间的差异,定义为:
DKL(P∣∣Q)=i=1∑MP(xi)logQ(xi)P(xi)=H(P,Q)−H(P)