一、平均互信息与互信息
1、互信息
互信息量表示接收到消息yj后,获得关于事件xi的信息量。
2、 从熵的角度来定义平均互信息量:
从信源X熵H(X)到信宿熵H(X|Y)熵减少了,同时为信宿Y提供了信息量,而信息从信源到信宿的变化是流经信道造成的,因此平均自信息又可以理解为流经信道的信息量。
3、从数学表达式角度定义平均互信息量:
4、从互信息的角度定义平均互信息量
平均互信息是互信息的期望。特备注意小写的xy是互信息,大写的XY是平均互信息。
5、易混淆符号区分
二、平均互信息性质
1、对称性:I(X;Y) = I(Y;X)
证明如下:
2、非负性:I(X;Y) ≥ 0
证明如下:
3、极值性:I(X;Y) ≤ H(X) ; I(Y;X) ≤ H(Y)
证明如下:
三、平均条件互信息和平均联合互信息
1、平均条件互信息:I(X;Y | Z)
2、平均联合互信息:I(XY;Z)
3、维拉图角度理解
四、信息处理定理
如何理解以上不等关系?
我们知道马尔科夫过程未来的状态只与当前有关,与过去无关,所以Y的状态只与X有关,Z的状态只与Y有关,也就是说X和Y之间的关联程度大于X和Z之间的关联程度:
所以在Z已知的情况下X的平均不确定度大于Y已知的情况下X的平均不确定度;H(X)和H(Y)之间的交集大于H(X)和H(Z)。
严格的数学证明如下:
五、凸性
1、凸集合(convex)
2、概率矢量
概率矢量全体构成的区域R是凸集
3、凸函数
4、熵的凸性
5、Jesen不等式
6、KT条件(KKT条件)
f(α)函数的自变量是一个概率矢量α,矢量α的每一维的数值分别为α1,α2...αK,f(α)函数的某个自变量取值α'在其每一维偏导数都存在且连续 ,则这时我们称f(α')在R上为极大值
满足这个结果的充要条件就是如下两个约束式子。
关于KKT条件进一步讲解和在最优化中的应用可以参考下面
https://zhuanlan.zhihu.com/p/556931657
7、平均互信息的凸性