信息量、熵、联合熵、条件熵、相对熵、交叉熵、JS散度、Wasserstein距离

news2025/1/17 1:25:03

信息量

I ( x i ) = l o g 1 P ( x i ) = − l o g P ( x i ) I(x_i)=log \frac {1}{P(x_i)}=-logP(x_i) I(xi)=logP(xi)1=logP(xi)
信息量(self-information),又译为信息本体,由克劳德 · 香农(Claude Shannon)提出,用来衡量单一事件发生时所包含的信息量多寡。任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。
在这里插入图片描述

例如对于昨天下雨这个已知事件,因为是已经发生的事件,是既定事实,那么它的信息量就为 0 。对于明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。我们可以发现信息量是一个与事件发生概率相关的概念。对于一个事件来说,它发生的概率越大,确定性越强,显然它所含有的信息量就越低。一件事情发生的概率越低,不确定性越强,它包含的信息量就越大
相同的 X = x i , Y = y i X=x_i ,Y = y_i X=xi,Y=yi的联合分布为
I ( x i , y i ) = l o g 1 p ( x i , y i ) I(x_i,y_i)=log \frac 1{p(x_i,y_i)} I(xi,yi)=logp(xi,yi)1
如果X和Y独立:
I ( x i , y i ) = l o g 1 P ( x i ) + l o g 1 P ( y i ) = I ( x i ) + I ( y i ) I(x_i,y_i) = log \frac1{P(x_i)} + log \frac 1{P(y_i)} \\\\ =I(x_i) +I(y_i) I(xi,yi)=logP(xi)1+logP(yi)1=I(xi)+I(yi)

信息量有以下几个性质

  • 单调递减性,即发生的概率越小,确定它发生所需要的信息量越大
  • p → 1 p\to1 p1时, I → 0 I\to0 I0,表示对确定一定会发生事件发生需要的信息量为0
  • p → 0 p\to0 p0时, I → ∞ I\to\infty I,表示确定不可能事件发生需要的信息量为无穷大。

信息量的数学期望就是信息熵
H ( X ) = − ∑ i = 1 n P ( x i ) l o g P ( x i ) H(X) = -\sum_{i=1}^n P(x_i)logP(x_i) H(X)=i=1nP(xi)logP(xi)
熵 (Entropy),本是热力学中的概念,1948 年,克劳德 · 香农(Claude Shannon)将热力学中的熵的概念引入到信息论中,因此也被称为 信息熵 或香农熵 (Shannon Entropy),用来衡量信息的不确定度。不准确点说,熵是用来衡量混乱程度的。越混乱,熵越大,代表不确定性越大,要弄清楚情况所需要的信息量越多
举个栗子,一个袋子有 10 个球。如果其中有 5 个红球 5 个白球,这就是混乱的。如果有 9 个红球和 1 个白球,这就不混乱。可以理解为如果各种物品的比例相同,不同物品的概率都很大,那么我想要判断袋子里面有什么东西就比较困难,整体的信息量就很大,就会非常混乱。如果袋子仅有一种物品,那么我判断袋子里的物品就非常容易,这便是不混乱。也即一个集合里面各部分比例越均衡越混乱,各部分越两极分化越不混乱。
那么如何使用数学来衡量混乱程度呢? 我们显然发现当物品的总数不变的情况下,两种物品数目的乘积越大越混乱,越小越不混乱。那么我们显然就可以用这个相乘的结果来衡量数据混乱程度。既然如此,如果袋子中有多种球,我们可以将他们的概率连乘即可。

信息论之父克劳德·香农,总结出的信息熵的三条性质:

  • 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
  • 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
  • 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。

联合熵

与联合自信息相同,我们可以定义两个随机变量 X 和 Y 的联合熵为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) P ( y ∣ x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ∣ x ) ) = − ∑ x ∈ X P ( x ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ∣ x ) ) = H ( X ) + H ( Y ∣ X ) \begin{aligned} H(X,Y) &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)P(y|x)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)) -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y|x)) \\ &= -\sum_{x∈X}P(x)log(P(x)) -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y|x)) \\ &=H(X)+H(Y|X) \end{aligned} H(X,Y)=xXyYP(x,y)log(P(x,y))=xXyYP(x,y)log(P(x)P(yx))=xXyYP(x,y)log(P(x))xXyYP(x,y)log(P(yx))=xXP(x)log(P(x))xXyYP(x,y)log(P(yx))=H(X)+H(YX)
在物理意义其度量了一个联合分布的随机系统的不确定度,观察了该随机系统的信息量
X = A , Y = B X=A,Y=B X=A,Y=B同时发生且相互独立时,有 P ( X = A , Y = B ) = P ( X = A ) × P ( Y = B ) P(X=A,Y=B)=P(X=A)×P(Y=B) P(X=A,Y=B)=P(X=A)×P(Y=B)此时信息熵
H ( X , Y ) = H ( X ) + H ( Y ) H(X,Y)=H(X)+H(Y) H(X,Y)=H(X)+H(Y)

互信息

两个随机变量 X 和 Y 的互信息定义为:
I ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) P ( x ) × P ( y ) ) = ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) × P ( y ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( y ) ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = − ∑ x ∈ X l o g ( P ( x ) ) ∑ y ∈ Y P ( x , y ) − ∑ y ∈ Y l o g ( P ( y ) ) ∑ x ∈ X P ( x , y ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = − ∑ x ∈ X l o g ( P ( x ) ) P ( x ) − ∑ y ∈ Y l o g ( P ( y ) ) P ( y ) − ( − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) ) = H ( X ) + H ( Y ) − ( X , Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) − H ( X ∣ Y ) = H ( X , Y ) − H ( Y ∣ X ) − H ( X ∣ Y ) \begin{aligned} I(X,Y) &=\sum_{x∈X}\sum_{y∈Y}P(x,y)log( \frac {P(x,y)}{P(x)×P(y)}) \\ &=\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x)×P(y)) \\ &= -\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x))-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(y))\\ & -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &= -\sum_{x∈X}log(P(x))\sum_{y∈Y}P(x,y)-\sum_{y∈Y}log(P(y))\sum_{x∈X}P(x,y) -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &= -\sum_{x∈X}log(P(x))P(x)-\sum_{y∈Y}log(P(y))P(y) -(-\sum_{x∈X}\sum_{y∈Y}P(x,y)log(P(x,y))) \\ &=H(X) +H(Y)-(X,Y) \\ &= H(Y) -H(Y|X) \\ &=H(X) - H(X|Y) \\ &=H(X,Y) -H(Y|X) -H(X|Y) \end{aligned} I(X,Y)=xXyYP(x,y)log(P(x)×P(y)P(x,y))=xXyYP(x,y)log(P(x,y))xXyYP(x,y)log(P(x)×P(y))=xXyYP(x,y)log(P(x))xXyYP(x,y)log(P(y))(xXyYP(x,y)log(P(x,y)))=xXlog(P(x))yYP(x,y)yYlog(P(y))xXP(x,y)(xXyYP(x,y)log(P(x,y)))=xXlog(P(x))P(x)yYlog(P(y))P(y)(xXyYP(x,y)log(P(x,y)))=H(X)+H(Y)(X,Y)=H(Y)H(YX)=H(X)H(XY)=H(X,Y)H(YX)H(XY)
当 X,Y 不相互独立时:
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X,Y) = H(X) +H(Y)-H(X,Y) I(X,Y)=H(X)+H(Y)H(X,Y)
互信息代表一个随机变量包含另一个随机变量信息量的度量。其物理意义表明了两事件单独发生的信息量是有重复的。互信息度量了这种重复的信息量大小。在一个点到点通信系统中,发送端信号为 X ,通过信道后,接收端接收到的信号为 Y ,那么信息通过信道传递的信息量就是互信息 I ( X , Y ) I(X,Y) I(X,Y)

条件熵

两个随机变量 X 和 Y 的条件熵定义为
H ( Y ∣ X ) = ∑ x ∈ X P ( x ) H ( Y ∣ x ) = ∑ x ∈ X P ( x ) ∑ y ∈ Y P ( y ∣ x ) l o g ( P ( y ∣ x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) P ( x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) + ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x ) ) = − ∑ x ∈ X ∑ y ∈ Y P ( x , y ) l o g ( P ( x , y ) ) + ∑ x ∈ X P ( x ) l o g ( P ( x ) ) = H ( X , Y ) − H ( X ) \begin{aligned} H(Y|X) &=\sum_{x∈X}P(x)H(Y|x) = \sum_{x∈X}P(x)\sum_{y∈Y}P(y|x)log(P(y|x)) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( \frac {P(x,y)}{P(x)}) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x,y))+\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x)) \\ &=-\sum_{x∈X}\sum_{y∈Y}P(x,y)log( P(x,y))+\sum_{x∈X}P(x)log( P(x)) \\ &=H(X,Y)-H(X) \end{aligned} H(YX)=xXP(x)H(Yx)=xXP(x)yYP(yx)log(P(yx))=xXyYP(x,y)log(P(x)P(x,y))=xXyYP(x,y)log(P(x,y))+xXyYP(x,y)log(P(x))=xXyYP(x,y)log(P(x,y))+xXP(x)log(P(x))=H(X,Y)H(X)

条件熵度量了在已知随机变量 X 的条件下随机变量 Y 的不确定性,也即在 X 已知的条件下,获得 Y 对于整体信息量的增加情况,有
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) \begin{aligned} H(X,Y) &= H(X) +H(Y|X) \\ &=H(Y)+H(X|Y) \end{aligned} H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)
在这里插入图片描述

相对熵(KL 散度)

相对熵(Relative Entropy),也叫 KL 散度 (Kullback-Leibler Divergence),具有非负的特性。用于衡量两个分布之间距离的指标,用 P 分布近似 Q 的分布,相对熵可以计算这个中间的损失,但是不对称(P 对 Q 和 Q 对P 不相等),因此不能表示两个分布之间的距离,这种非对称性意味着选择 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q) 还是 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P) 影响很大。当 P=Q 时, 相对熵(KL 散度)
取得最小值 。
如果对于同一个随机变量 x 有两个单独的概率分布 P ( x ) P(x) P(x) Q ( x ) Q(x) Q(x) ,我们就可以使用 KL 散度来衡量这两个分布的差异。
散度越小,真实分布与近似分布之间的匹配就越好。
D K L ( P ∣ ∣ Q ) = E x ~ P [ l o g P ( x ) Q ( x ) ] = E x ~ P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q)=E_{x~P}[log \frac {P(x)}{Q(x)}] = E_{x~P}[log {P(x)}- log{Q(x)}] DKL(P∣∣Q)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

https://zhuanlan.zhihu.com/p/46576065111

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/664359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用投票回归器VotingRegressor对糖尿病数据集进行回归预测

目录 1. 作者介绍2. 投票回归器VotingRegressor简介2.1 VotingRegressor介绍2.2 VotingRegressor算法遵循以下关键原则: 3. 使用投票回归器VotingRegressor对糖尿病数据集进行回归预测实验过程3.1 代码流程介绍3.2 完整代码3.3 实验结果 1. 作者介绍 余成伟&#x…

【深度学习】YOLOv8训练过程,YOLOv8实战教程,目标检测任务SOTA,关键点回归

文章目录 可用资源资源安装模型训练(检测)模型pridict模型导出 可用资源 https://github.com/ultralytics/ultralytics 官方教程:https://docs.ultralytics.com/modes/train/ 资源安装 更建议下载代码后使用 下面指令安装,这样…

Hug pylons, not trees 拥抱电网,而非树木 | 经济学人20230408版双语精翻

《经济学人》4月8日周报封面即社论区(Leaders)精选文章:《拥抱电网,而非树木》(Hug pylons, not trees)。 Hug pylons, not trees 拥抱电网,而非树木 The case for an environmentalism that bu…

100天精通Golang(基础入门篇)——第9天:Go语言程序的循环语句

🌷 博主 libin9iOak带您 Go to Golang Language.✨ 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《I…

UWB定位的两种解法

UWB(Ultra-Wideband)技术是一种短脉冲无线电技术(短脉冲意味着信号的带宽很大,因此称为超宽带),其应用非常广泛,其中之一就是室内定位,通过计算信号传播的时间差,可以得到标签和基站之间的距离,如果有足够多的基站&…

Unity核心1——图片导入与图片设置

一、图片导入概述 ​ Unity 支持的图片格式有很多 BMP:是 Windows 操作系统的标准图像文件格式,特点是几乎不进行压缩,占磁盘空间大 TIF:基本不损失图片信息的图片格式,缺点是体积大 JPG:一般指 JPEG 格…

【Elasticsearch】 之 Translog/FST/FOR/RBM算法

目录 Translog FST/FOR/RBM算法解析 FST FOR(Frame of Reference): RBM(Roaring Bitmaps)-(for filter cache) Translog es是近实时的存储搜索引。近实时,并不能保证被立刻看到。数据被看到的时候数据已经作为一…

工业级以太网RJ45温湿度监控系统解决方案之关键POE供电温湿度传感器

目 录 一、关键词…………………………………………………………………………3 二、 产品概述………………………………………………………………………3 三、 应用范围………………………………………………………………………3 四、 产品特点………………………………

Linux0.11内核源码解析-file_dev.c

目录 功能描述 int file_read(struct m_inode * inode, struct file * filp, char * buf, int count) int file_write(struct m_inode * inode, struct file * filp, char * buf, int count) 功能描述 该文件主要是由两个函数file_read()和file_write()组成,提供…

Nginx网站服务——服务基础

文章目录 一.Nginx服务基础1.关于Nginx的特点2.简述Nginx和Apache的差异3.Nginx 相对于 Apache 的优点4.Apache 相对于 Nginx 的优点5.阻塞与非阻塞6.同步与异步7.nginx的应用场景 二.编译安装nginx服务1.在线安装nginx1.1 yum部署Nginx1.2 扩展源安装完后直接安装Nginx 2.ngin…

MySQL数据库---存储引擎(MyISAM与InnoDB)

目录 前言一、存储引擎概念介绍二、MyISAM三、InnoDB四、配置合适的存储引擎总结 前言 数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧…

Vue中如何进行图像识别与人脸对比

Vue中如何进行图像识别与人脸对比 随着人工智能的发展,图像识别和人脸识别技术已经被广泛应用于各种应用程序中。Vue作为一种流行的前端框架,提供了许多实用工具和库,可以帮助我们在应用程序中进行图像识别和人脸识别。在本文中,…

docker换源(docker镜像源)pull超时(pull镜像超时)/etc/docker/daemon.json

文章目录 pull了n次都超时&#xff0c;也是醉了更换镜像源步骤1. 打开终端并以管理员身份登录到Docker主机。2. 编辑Docker配置文件daemon.json。该文件用于配置Docker守护进程的参数。3. 在daemon.json文件中添加以下内容&#xff0c;将<镜像源地址>替换为您选择的镜像源…

基于matlab仿真具有不同传感器模式的锥形阵列(附源码)

一、前言 此示例说明如何在不同的阵列配置上应用锥形和模型细化。它还演示了如何创建具有不同元素模式的数组。 二、ULA 逐渐变细 本节介绍如何在均匀线性阵列 &#xff08;ULA&#xff09; 的元素上应用泰勒窗口以降低旁瓣电平。 比较锥形阵列和非锥形阵列的响应。请注意锥形U…

外部局域网直接访问WSL2

1. 开启hyper-v 1、首先&#xff0c;进入控制面板—程序—启用或关闭windows功能&#xff0c;勾选hyper-v&#xff0c;确认后重启电脑。2、打开 Windows PowerShell&#xff0c;输入 systeminfo 命令 能够看到出现了很多处理器的信息&#xff0c;最末尾有个 Hyper-V 要求&…

Redis 2023面试5题(一)

一、Redis是单线程还是多线程 在面试中&#xff0c;当被问到Redis是单线程还是多线程这个问题时&#xff0c;可以按照以下思路进行回答&#xff1a; 首先&#xff0c;Redis的核心业务部分是单线程的&#xff0c;即命令处理部分是单线程的。然而&#xff0c;Redis也支持多路复…

Java---第四章(数组基础,冒泡排序,二分查找,多维数组)

Java---第四章 一 数组基本知识数组操作 二 数组实操数组排序二分查找二维数组 一 数组 基本知识 概念&#xff1a; 数组是编程语言中的一种常见的数据结构&#xff0c;能够存储一组相同类型的数据 作用&#xff1a; 存储一组相同类型的数据&#xff0c;方便进行数理统计&am…

springboot3生命周期监听的使用和源码解析

定义SpringApplicationRunListener来监听springApplication的启动 1.通过实现springApplicationRunListener来实现监听。 2.在 META-INF/spring.factories 中配置 org.springframework.boot.SpringApplicationRunListener自己的Listener。 在默认的springboot配置中就有给我…

视觉SLAM十四讲——ch12实践(建图)

视觉SLAM十四讲——ch12的实践操作及避坑 0.实践前小知识介绍1. 实践操作前的准备工作2. 实践过程2.1 单目稠密重建2.2 RGB-D稠密建图2.3 点云地图2.4 从点云重建网格2.5 八叉树地图 3. 遇到的问题及解决办法3.1 cmake ..时&#xff0c;出现opencv版本问题3.2 make -j8时&#…

使用腾讯云服务器从零搭建个人网站

前期准备工作 1.服务器重装系统 选择ubuntu18的系统镜像 2.开放端口 需要开放80&#xff0c;27017&#xff0c;3000&#xff0c;22端口 80端口用于配置nginx服务27017端口用于连接mongondb数据库3000端口是启动项目的端口22端口用于ssh远程连接服务器&#xff0c;一般默认会…