信息论基础知识

news2024/11/27 18:27:05

注意:本文只针对离散随机变量做出探讨,连续随机变量的情况不适用于本文探讨的内容!

(一)自信息

1. 自信息

I ( x ) = − l o g n P ( x ) \color{blue}I(x) = - log_{n}{P(x)} I(x)=lognP(x)
注意:
若n = 2,叫做bit
若n = 3,叫做tet
若n = e,叫做nat
若n = 10,叫做hat
一般来讲,在信息论中,以2为底数比较普遍。
从公式的含义来看, 由于 P ( x ) 代表的是概率的大小,其值介于区间 ( 0 , 1 ) 之间, 当 p ( x ) 趋于 0 时代表信息量是无穷大的;而当 p ( x ) 趋于 1 时,它代表的信息量是 0 。 \color{red}从公式的含义来看,\\由于P(x)代表的是概率的大小,其值介于区间(0,1)之间,\\ 当p(x)趋于0时代表信息量是无穷大的;而当p(x)趋于1时,它代表的信息量是0。 从公式的含义来看,由于P(x)代表的是概率的大小,其值介于区间(0,1)之间,p(x)趋于0时代表信息量是无穷大的;而当p(x)趋于1时,它代表的信息量是0

自信息还包括条件自信息和联合自信息。其中条件自信息定义如下:
I ( x y ) = − log ⁡ P ( x ∣ y ) = − log ⁡ p ( x y ) p ( y ) I(xy) = - \log P(x|y) = - \log \frac {p(xy)}{p(y)} I(xy)=logP(xy)=logp(y)p(xy)

联合自信息的定义如下:
I ( x y ) = − l o g n P ( x y ) \color{red}I(xy) = - log_{n}{P(xy)} I(xy)=lognP(xy)

联合自信息的特点:
I ( x y ) = I ( y ∣ x ) + I ( x ) = I ( x ∣ y ) + I ( y ) \color{red}I(xy) = I(y|x) + I(x) = I(x|y) + I(y) I(xy)=I(yx)+I(x)=I(xy)+I(y)

当x 与y 相互独立时有:
I ( x y ) = I ( x ) + I ( y ) \color{red}I(xy) = I(x) + I(y) I(xy)=I(x)+I(y)

2. 条件熵
条件熵是平均条件自信息的另一种解释,是条件自信息的期望值。
I ( x ∣ y ) = − ∑ x ∈ X P ( x i ∣ y i ) ∑ y ∈ Y P ( y i ) l o g P ( x i ∣ y i ) = − ∑ x ∈ X ∑ y ∈ Y P ( x y ) L o g P ( x ∣ y ) I(x|y) = -\sum_{x\in X}P(x_i|y_i)\sum_{y \in Y}P(y_i)logP(x_i|y_i)=-\sum_{x\in X}\sum _{y \in Y}P(xy)LogP(x|y) I(xy)=xXP(xiyi)yYP(yi)logP(xiyi)=xXyYP(xy)LogP(xy)

要注意:此处log符号前的概率是 p ( x y ) \color{green}p(xy) p(xy)而不是 p ( x ∣ y ) \color{green}p(x|y) p(xy)
另外,从上面的公式可知,必须要计算整个y的条件概率,而不是 y i y_i yi的条件概率,故log符号前面是p(xy)而不是p(x|y)

3. 互信息

I ( x ; y ) = ∑ x ∈ X ∑ y ∈ Y l o g p ( x y ) p ( x ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y l o g p ( x ∣ y ) p ( x ) = ∑ x ∈ X ∑ y ∈ Y l o g p ( y ∣ x ) p ( y ) = I ( y ; x ) I(x;y) = \sum_{x \in X} \sum_{y \in Y} log \frac {p(xy)} {p(x) p (y)} =\\ \sum_{x \in X} \sum_{y \in Y} log \frac {p(x|y)} {p(x)} =\sum_{x \in X} \sum_{y \in Y} log \frac {p(y|x)} {p(y)} = I(y;x) I(x;y)=xXyYlogp(x)p(y)p(xy)=xXyYlogp(x)p(xy)=xXyYlogp(y)p(yx)=I(y;x)

互信息的重要性质:

I ( x ; y ) = H ( x ) − H ( x ∣ y ) = H ( y ) − H ( y ∣ x ) I(x; y) = H(x) - H(x|y) = H(y) -H(y|x) I(x;y)=H(x)H(xy)=H(y)H(yx)

证明:
H ( x ) − H ( x ∣ y ) = − ∑ x ∈ X P ( x ) l o g P ( x ) + ∑ x ∈ X ∑ y ∈ Y p ( x y ) l o g P ( x ∣ y ) = − ∑ x ∈ X p ( x ) l o g p ( x ) ∑ y ∈ Y p ( y ∣ x ) + ∑ x ∈ X ∑ y ∈ Y p ( x y ) l o g P ( x ∣ y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x y ) l o g p ( x ) + ∑ x ∈ X ∑ y ∈ Y p ( x y ) l o g P ( x ∣ y ) = ∑ x ∈ X ∑ y ∈ Y p ( x y ) l o g P ( x y ) P ( x ) P ( y ) = I ( x ; y ) H(x) - H (x|y) = -\sum_{x \in X} P(x)log P(x) + \sum_{x \in X} \sum_{y \in Y} p(xy)log P(x|y) \\ = - \sum_{x \in X}p(x) log p(x) \sum_{y \in Y} p(y|x) +\sum_{x \in X} \sum_{y \in Y} p(xy)log P(x|y)\\ = - \sum_{x \in X} \sum_{y \in Y}p(xy)logp(x) + \sum_{x \in X} \sum_{y \in Y} p(xy)log P(x|y) \\ = \sum_{x \in X} \sum_{y \in Y} p(xy)log \frac {P(xy)}{P(x)P(y)}= I(x;y) H(x)H(xy)=xXP(x)logP(x)+xXyYp(xy)logP(xy)=xXp(x)logp(x)yYp(yx)+xXyYp(xy)logP(xy)=xXyYp(xy)logp(x)+xXyYp(xy)logP(xy)=xXyYp(xy)logP(x)P(y)P(xy)=I(x;y)

此处要注意的是一个知识点就是, ∑ y ∈ Y p ( y i ∣ x ) = ∑ y ∈ Y p ( x ∣ y i ) p ( y i ) p ( x ) = 1 \sum_{y \in Y} p(y_i|x) =\sum_{y \in Y} \frac {p(x|y_i)p(y_i)}{p(x)} = 1 yYp(yix)=yYp(x)p(xyi)p(yi)=1

4.平均互信息

注意平均互信息和互信息的区别。平均互信息即为互信息的期望值,其定义为:
I ( x ; y ) = ∑ x ∈ X ∑ y ∈ Y P ( x y ) l o g p ( x y ) p ( x ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y P ( x y ) l o g p ( x ∣ y ) p ( x ) = ∑ x ∈ X ∑ y ∈ Y P ( x y ) l o g p ( y ∣ x ) p ( y ) = I ( y ; x ) I(x;y) = \sum_{x \in X} \sum_{y \in Y} P(xy) log \frac {p(xy)} {p(x) p (y)} =\\ \sum_{x \in X} \sum_{y \in Y} P(xy) log \frac {p(x|y)} {p(x)} =\sum_{x \in X} \sum_{y \in Y} P(xy) log \frac {p(y|x)} {p(y)} = I(y;x) I(x;y)=xXyYP(xy)logp(x)p(y)p(xy)=xXyYP(xy)logp(x)p(xy)=xXyYP(xy)logp(y)p(yx)=I(y;x)

5. 条件互信息
联合集XYZ中,给定条件Z下,X与Y的互信息定义如下:

I ( x ; y ∣ z ) = I ( x ∣ z ) − I ( x ∣ y z ) = − log ⁡ P ( x ∣ z ) + log ⁡ P ( x ∣ y z ) = log ⁡ p ( x ∣ y z ) p ( x ∣ z ) I(x;y|z) = I(x|z) - I(x|yz) = -\log P(x|z) + \log P(x|yz) = \log \frac {p(x|yz)}{p(x|z)} I(x;yz)=I(xz)I(xyz)=logP(xz)+logP(xyz)=logp(xz)p(xyz)

(二)熵

熵的定义比较重要,重点讲述,但是其含义跟上一个标题中的平均互信息、条件熵类似,都是一种期望值。

熵的定义:自信息的数学期望为信源的平均自信息量(信息熵)。 用数学期望值的原因是因为,自信息是一个随机事件的概率 , 不能用作整个信源的信息测度。 由此可见,熵是自信息概念的进一步扩展,是自信息的期望值 \color{red}熵的定义:自信息的数学期望为信源的平均自信息量(信息熵)。\\用数学期望值的原因是因为,自信息是一个随机事件的概率, 不能用作整个信源的信息测度。\\由此可见,熵是自信息概念的进一步扩展,是自信息的期望值 熵的定义:自信息的数学期望为信源的平均自信息量(信息熵)。用数学期望值的原因是因为,自信息是一个随机事件的概率,不能用作整个信源的信息测度。由此可见,熵是自信息概念的进一步扩展,是自信息的期望值

二元熵

二元熵是熵的一个特例,也就是一件事情有两种情况发生,这两种情况的概率已知,那么这件事情的熵计算公式如下:
H ( x ) = − p l o g p − ( 1 − p ) l o g ( 1 − p ) H(x) = - p log p - (1-p) log(1-p) H(x)=plogp(1p)log(1p)

离散熵:

H ( x ) = E x [ I ( x ) ] = − ∑ i = 1 n [ P ( x i ) l o g n P ( x i ) ] \color{blue} H(x) = E_x[I(x)]=-\sum^{ n }_{i=1} [P(x_i)log_nP(x_i)] H(x)=Ex[I(x)]=i=1n[P(xi)lognP(xi)]

连续熵:

H ( x ) = E x [ I ( x ) ] = − ∫ + ∞ − ∞ P ( x ) l o g n P ( x ) d x \color{green}H(x) = E_{x}[I(x)] = - \int_{+\infty}^{-\infty}P(x)log_{n}P(x)dx H(x)=Ex[I(x)]=+P(x)lognP(x)dx

注意:积分中是对x微分而不是P(x)

熵的一些重要知识点:
根据极限相关知识,可得:

lim ⁡ P ( x ) → 0 − P ( x ) l o g n P ( x ) = lim ⁡ x → 0 l o g n P ( x ) 1 − P ( x ) = 1 P ( x ) P ( x ) 2 = P ( x ) = 0 \color{red}\lim_{P(x) \to 0}-P(x)log_nP(x) = \lim_{x \to 0} \frac {log_nP(x)} {\frac{1}{-P(x)}} = \frac{1}{P(x)} P(x)^2 = P(x) = 0 P(x)0limP(x)lognP(x)=x0limP(x)1lognP(x)=P(x)1P(x)2=P(x)=0

同时,当P(x)= 1时,H(x) = 0。

连续熵的导数为0时, H ′ ( x ) = − P ( x ) l o g n P ( x ) = 0 H'(x) = -P(x) log_nP(x) = 0 H(x)=P(x)lognP(x)=0,可得:
(1)当熵的导数为0时,可得P(x) = 1( P ( x ) = 0 不在定义域中,不符合条件 \color{green}P(x) = 0不在定义域中,不符合条件 P(x)=0不在定义域中,不符合条件),因此熵在该点处取得极值。
(2)再考察P(x) = 1 左右处的值,左侧导数大于0,右侧导数小于0,因此在P(x) = 1处连续熵函数取得最小值0。( 此处似乎有错误 , 问题在于离散熵和连续熵函数具有很大的区别,其细节问题,留待勘查 \color{red}此处似乎有错误,问题在于离散熵和连续熵函数具有很大的区别,其细节问题,留待勘查 此处似乎有错误,问题在于离散熵和连续熵函数具有很大的区别,其细节问题,留待勘查
(3)熵的值总是大于0。由于P(x)的含义是x的概率,概率总是大于0小于1的,又 − P ( x ) l o g n P ( x ) = P ( x ) l o g n 1 P ( x ) -P(x)log_nP(x) =P(x)log_n \frac{1}{P(x)} P(x)lognP(x)=P(x)lognP(x)1,根据log函数的性质, l o g n 1 P ( x ) log_n\frac{1}{P(x)} lognP(x)1也大于0,故熵的值必然大于0。
(4)H(xy) = H(x) + H(y|x)
证明:
H ( x ) + H ( y ∣ x ) = − ∑ i = 1 n P ( x y ) l o g P ( x y ) P ( x ) − ∑ i = 1 n P ( x ) l o g P ( x ) = − ∑ i = 1 n P ( x y ) l o g P ( x y ) = H ( x y ) H(x) + H(y|x) =- \sum_{i=1}^n P(xy) log \frac {P(xy) }{P(x)} - \sum _{i=1}^n P(x)log P(x) =\\ -\sum_{i=1}^n P(xy) log P(xy) = H(xy) H(x)+H(yx)=i=1nP(xy)logP(x)P(xy)i=1nP(x)logP(x)=i=1nP(xy)logP(xy)=H(xy)
同理,H(xy) = H(y) + H(x|y)

另外,还有几个重要的结论:
(1)当已知分布上下限时均匀分布的熵最大,当知道均值和方差时正态分布的熵最大。
(2)给定一串数据,其中数据元 x 出现的概率为p(x),则最佳编码长度为 − l o g 2 P ( x ) -log_2P(x) log2P(x),整段文本的平均编码长度为 − ∑ i = 1 n P ( x i ) l o g 2 P ( x i ) -\sum_{i=1}^{n}P(x_i)log_2P(x_i) i=1nP(xi)log2P(xi),即底为2的熵。
(3)最大离散熵定理:
具有n个符号的离散信源,只有在n个信源等概率的情况下熵才能取得最大值,即等概率的熵最大,这叫做最大离散熵定理。
此定理是熵的判定中一个重要定理。

最大离散熵定理的证明:

已知条件: ∑ i = 1 n p i = 1 , H ( x ) = − ∑ i = 1 n p i l o g p i , p 1 = p 2 = . . = p i = p n , 根据拉格朗日乘数法则得: H ( x ) = − ∑ i = 1 n p i l o g p i + λ ( ∑ i = 1 n p i − 1 ) , ∂ H ( x ) ∂ p i = − n l o g p i − n + n λ = 0 , p i = 1 n ,由此得知: p i = e λ − 1 ,即 p i 服从指数分布 已知条件:\\ \sum _{i = 1} ^ np_i = 1, \\ H(x) = -\sum_{i=1}^{n} p_i log p_i,\\ p_1 = p_2 = .. = p_i = p_n,\\ 根据拉格朗日乘数法则得:\\ H(x) = -\sum_{i=1}^{n} p_i log p_i + \lambda(\sum _{i = 1}^n p_i -1) ,\\ \frac {\partial H(x)}{\partial p_i} = - nlogp_i - n + n \lambda = 0, p_i = \frac {1}{n},由此得知:\\ p_i = e ^ {\lambda - 1},即p_i服从指数分布 已知条件:i=1npi=1,H(x)=i=1npilogpi,p1=p2=..=pi=pn,根据拉格朗日乘数法则得:H(x)=i=1npilogpi+λ(i=1npi1)piH(x)=nlogpin+=0,pi=n1,由此得知:pi=eλ1,即pi服从指数分布

(4)已知均值和方差时,正态分布下熵的值最大,该证明的参考链接如下:
https://zhuanlan.zhihu.com/p/309831227

(5)任何概率分布下的信息熵一定不会大于它对其它概率分布下自信息的数学期望(交叉熵有极小值
证明:
∵ l n x ≤ x − 1 ∴ ∑ i = 1 n p i × l n q i p i ≤ ∑ i = n n p i × ( q i p i − 1 ) = ∑ i = 1 n q i − ∑ i = 1 n p i = 0 ∴ ∑ i = 1 n p i × l n q i p i = ∑ i = 1 n p i l n q i − ∑ i = 1 n p i l n p i ≤ 0 ∴ ∑ i = 1 n p i l n q i ≤ ∑ i = 1 n p i l n p i \because lnx \le x - 1\\ \therefore \sum _{i=1}^{n} p_i \times ln \frac {q_i}{p_i} \le \sum _{i=n} ^{n} p_i \times \bigl ( \frac{q_i}{p_i} - 1) = \sum _{i=1}^{n}q_i - \sum _{i=1} ^ {n} p_i = 0 \\ \therefore \sum _{i=1}^{n} p_i \times ln \frac {q_i}{p_i} = \sum _{i=1}^{n} p_i ln q_i - \sum _{i=1}^{n} p_i ln p_i \le 0 \\ \therefore \sum _{i=1}^{n} p_i ln q_i \le \sum _{i=1}^{n} p_i ln p_i lnxx1i=1npi×lnpiqii=nnpi×(piqi1)=i=1nqii=1npi=0i=1npi×lnpiqi=i=1npilnqii=1npilnpi0i=1npilnqii=1npilnpi

交叉熵有极小值也是机器学习的基础理论之一。

(6)熵函数具有上凸性,熵函数必有最大值。(此结论只针对离散随机变量)

(三)熵几个概念之间的图形化关系

最后,关于信息论中各个部分的关系如下,其中:

图中H(X)与H(Y)是X,Y两个部分的熵,I(XY)是两者熵的重合部分。

H(X|Y)是H(X) 去掉I(XY)部分,H(Y|X)是H(Y) 去掉I(XY)部分,H(XY)是两者的面积去掉I(xy)的部分。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/867027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用ChatGPT和六顶帽思考法帮助自己更好地决策和解决问题

当我们在解决复杂问题时,我们常常陷入单一视角的状态。创造性思维领域的先驱爱德华德博诺,提出了六顶帽思考法[1],这意味着我们可以从六个不同的视角来思考一个问题,以实现高水平决策和解决问题。 每一顶“帽子”代表不同的视角。…

【Matlab】PSO优化(单隐层)BP神经网络算法

上一篇博客介绍了BP-GA:BP神经网络遗传算法(BP-GA)函数极值寻优——非线性函数求极值,本篇博客将介绍用PSO(粒子群优化算法)优化BP神经网络。 1.优化思路 BP神经网络的隐藏节点通常由重复的前向传递和反向传播的方式来决定&#…

UGUI源码深度剖析

源码下载后 直接嵌入工程,删除引擎extension里的; 自制UI,在一个空场景中显示一个图片,当鼠标点击图片,执行操作。 gameobject : mesh meshfilter meshrender maintexture meshcollider camera ray

基于SSM的智能商城购物系统

基于SSM的智能商城购物系统 项目简介项目获取开发环境项目技术运行截图 项目简介 该智能商城系统主要实现两大功能模块:前台管理和后台管理 前台管理包括五大模块:用户登录注册、商品信息、购物车信息、个人信息管理、下单与订单管理、订单物流设置。 (1)用户登录注册模块:该功…

【Python机器学习】实验10 支持向量机

文章目录 支持向量机实例1 线性可分的支持向量机1.1 数据读取1.2 准备训练数据1.3 实例化线性支持向量机1.4 可视化分析 实例2 核支持向量机2.1 读取数据集2.2 定义高斯核函数2.3 创建非线性的支持向量机2.4 可视化样本类别 实例3 如何选择最优的C和gamma3.1 读取数据3.2 利用数…

大数据Flink(六十一):Flink流处理程序流程和项目准备

文章目录 Flink流处理程序流程和项目准备 一、Flink流处理程序的一般流程

使用jasypt对Spring Boot配置文件中的配置项加密

在Spring Boot中,有很多口令需要加密,如数据库连接密码、访问第三方接口的Token等。常见的方法就是用jasypt对口令进行加密。 实际上,jasypt可以对配置文件中任意配置项的值进行加密,不局限于对密码的加密。 1.在pom.xml中添加ja…

21 | 朝阳医院数据分析

朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。 import numpy as np from pandas import Series,DataFrame impo…

友善之臂NanoPi NEO利用fbtft驱动点亮1.69寸ST7789V2屏幕

屏幕介绍 本文以中景园1.69寸LCD,驱动芯片ST7789V2该款屏幕示例,屏幕的分辨率为240*280 屏幕引脚说明 NanoPi NEO IO介绍 屏幕与板子的IO连接关系 屏幕NanoPi NEOGNDGNDVCC3.3VSCLPC2SDAPC0RESPG11DCPA1CSPC3BLKPA0 下载交叉编译器和linux内核源码并按教…

c语言——完数的计算

完数即所有因子之和等于其本身值 列入,28124714,28所有的因子为1,2,4,7,14 而这五个因子之和恰好也是28. //完数的计算 /*完数即所有因子之和等于其本身值 列入,28124714,28所有的…

LeetCode700. 二叉搜索树中的搜索

700. 二叉搜索树中的搜索 文章目录 [700. 二叉搜索树中的搜索](https://leetcode.cn/problems/search-in-a-binary-search-tree/)一、题目二、题解方法一:迭代方法二:递归 带main函数测试用例 一、题目 给定二叉搜索树(BST)的根节…

在线状态监测如何使冷却塔维保管理受益

工业冷却塔作为关键的热交换装置,在许多生产流程中发挥着重要作用。为了保持其高效稳定的运行,实施连续的冷却塔状态监测变得至关重要。本文将以PreMaint设备数字化平台为例,探讨为什么建议采用远程冷却塔状态监测,以及如何借助振…

PHP证券交易员学习网站mysql数据库web结构apache计算机软件工程网页wamp

一、源码特点 PHP证券交易员学习网站 是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 下载地址https://download.csdn.net/download/qq_41221322/88205549 PHP证券交易员…

Python爬虫的requests(学习于b站尚硅谷)

目录 一、requests  1. requests的基本使用  (1)文档  (2)安装  (3)响应response的属性以及类型  (4)代码演示 2.requests之get请求  3. requests之post请求  &#x…

emqx-5.1.4开源版使用记录

emqx-5.1.4开源版使用记录 windows系统安装eqmx 去官网下载 emqx-5.1.4-windows-amd64.zip,然后找个目录解压 进入bin目录,执行命令启动emqx 执行命令 emqx.cmd start使用emqx 访问内置的web管理页面 浏览器访问地址 http://localhost:18083/#/dashboard/overv…

什么是P2P?

P2P (Peer-to-Peer) 是一种分布式的网络架构,其中各个节点(通常被称为“peers”或“节点”)直接进行数据共享和交换,而无需依赖中央服务器。P2P 网络强调平等的参与和共享,每个节点既可以是数据的消费者(下…

从MySQL到金蝶云星空通过接口配置打通数据

从MySQL到金蝶云星空通过接口配置打通数据 对接系统:MySQL MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS…

C++模板,STL(Standard Template Library)

这篇文章的主要内容是C中的函数模板、类模板、STL的介绍。 希望对C爱好者有所帮助,内容充实且干货,点赞收藏防止找不到! 再次感谢每个读者和正在学习编程的朋友莅临! 更多优质内容请点击移驾: C收录库:重生…

重复delete 对象指针后的 异常调用栈怪异 解析

Release版VC6 MFC程序 程序正常退出时得到一个如下异常调用栈:​ 0:000> kb# ChildEBP RetAddr Args to Child WARNING: Frame IP not in any known module. Following frames may be wrong. 00 0019eb94 76124f2f 00c3afc8 0019ebdc 001…

k8部署安装

1 环境初始化 1.1 检查操作系统的版本 此方式下安装kubernetes集群要求Centos版本要在7.5或之上 [rootmaster ~]# cat /etc/redhat-release Centos Linux 7.5.1804 (Core)1.2主机名成解析 三台服务器的/etc/hosts文件 192.168.90.100 master 192.168.90.106 node1 192.168.…