信息熵+互信息(信息增益)

news2025/1/12 12:14:12

文章目录

  • 信息增益
    • 信息量
    • 信息熵
    • 条件熵
    • 信息增益

交叉熵->信息熵->KL散度

信息增益

信息量

信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。

”2018年中国队成功进入世界杯“,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。

根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。

设某一事件发生的概率为P(x),其信息量表示为:
I ( x ) = − log ⁡ ( P ( x ) ) (1) \mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1} I(x)=log(P(x))(1)
其中 I ( x ) \mathrm{I}(\mathrm{x}) I(x)表示信息量,这里 l o g ⁡ log ⁡ log表示以e为底的自然对数。

信息熵

信息熵也被称为熵,用来表示所有信息量的期望
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的 X X X是一个离散型随机变量)
H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ ( P ( x i ) ) ( X = x 1 , x 2 , x 3 … , x n ) (2) \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2} H(X)=i=1nP(xi)log(P(xi))(X=x1,x2,x3,xn)(2)

使用明天的天气概率来计算其信息熵:
在这里插入图片描述
H ( X ) = − ( 0.5 ∗ log ⁡ ( 0.5 ) + 0.2 ∗ log ⁡ ( 0.2 ) + 0.3 ∗ log ⁡ ( 0.3 ) ) (3) \mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3} H(X)=(0.5log(0.5)+0.2log(0.2)+0.3log(0.3))(3)

对于0-1分布的问题,由于其结果只用两种情况,是或不是,设某一件事情发生的概率为 P ( x ) \mathrm{P}(\mathrm{x}) P(x),则另一件事情发生的概率为 1 − P ( x ) 1 - \mathrm{P}(\mathrm{x}) 1P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:

H ( X ) = − ∑ n = 1 n P ( x i log ⁡ ( P ( x i ) ) ) = − [ P ( x ) log ⁡ ( P ( x ) ) + ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) ] = − P ( x ) log ⁡ ( P ( x ) ) − ( 1 − P ( x ) ) log ⁡ ( 1 − P ( x ) ) (4) \begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array} H(X)=n=1nP(xilog(P(xi)))=[P(x)log(P(x))+(1P(x))log(1P(x))]=P(x)log(P(x))(1P(x))log(1P(x))(4)

给出熵和条件熵的定义。在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X 是一个取有限值的离散随机变量,其概率分布为:

P ( X = x i ) = p i , i = 1 , 2 , ⋯   , n (5) P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5} P(X=xi)=pi,i=1,2,,n(5)
则随机变量 X X X 的熵定义为:
H ( X ) = − ∑ i = 1 n p i log ⁡ p i (6) H(X)=-\sum_{i=1}^np_i \log p_i \tag{6} H(X)=i=1npilogpi(6)
在公式2,若 p i = 0 p_i=0 pi=0,则定义 0 log ⁡ 0 = 0 0\log 0=0 0log0=0。通常,公式2中的对数以2为底或以 e e e为底(自然对数),这时熵的单位分别称作比特(bit)或纳特(nat)。由此定义可知,熵只依赖于 X X X的分布,而与 X X X的取值无关,所以也可将 X X X的熵记作 H ( p ) H(p) H(p), 即
H ( p ) = − ∑ i = 1 n p i log ⁡ p i (7) H(p)=-\sum_{i=1}^{n}p_i\log p_i\tag{7} H(p)=i=1npilogpi(7)

条件熵

条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。随机变量 X X X给定的条件下随机变量 Y Y Y的条件熵(conditional entropy) H ( Y ∣ X ) H(Y|X) H(YX),定义为 X X X 给定条件下, Y Y Y的条件概率分布的熵对 X X X的数学期望:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) (8) H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)\tag{8} H(YX)=i=1npiH(YX=xi)(8)
这里 p i = P ( X = x i ) , i = 1 , 2 , ⋯   , n p_i=P(X=x_i), i=1,2,\cdots, n pi=P(X=xi),i=1,2,,n
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy).

信息增益

信息增益(information gain)表示得知特征 X X X的信息而使得类 Y Y Y的信息的不确定性减少的程度。
特征 X X X对训练数据集 Y Y Y的信息增益 g ( Y , X ) g(Y,X) g(Y,X),定义为集合 Y Y Y的经验熵 H ( Y ) H(Y) H(Y)与特征 X X X给定条件下 Y Y Y的经验条件熵 H ( Y ∣ X ) H(Y|X) H(YX)之差,即:
g ( Y , X ) = H ( Y ) − H ( Y ∣ X ) (9) g(Y,X)=H(Y) - H(Y|X)\tag{9} g(Y,X)=H(Y)H(YX)(9)

一般地,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(YX)之差称为互信息(mutual information)。决策树学习中的信息增益等价于寻训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集 Y Y Y和特征 X X X,经验熵 H ( Y ) H(Y) H(Y)表示对数据集 Y Y Y进行分类的不确定性。而经验条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在特征 X X X给定的条件下对数据集 Y Y Y进行分类的不确定性。那么它们的差,即信息增益,就表示由于特征 X X X而使得对数据集 Y Y Y的分类的不确定性减少的程度。
显然,对于数据集 Y Y Y而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力,

g g g越大,说明越确定.
根据信息增益准则的特征选择方法是:对训练数据集(或子集) Y Y Y,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2122131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录27期|Python|Day51|​动态规划|​115.不同的子序列|​583. 两个字符串的删除操作​|

115. 不同的子序列 本题是在原来匹配子序列的基础上增加了统计所匹配的子序列个数,也就是dp数组的定义和更新公式和原来的有所区别。 1、dp数组的定义 dp[i][j]表示以i-1和j-1为末尾的字符串中,给定字符串s包含目标字符串t的个数。注意这里不是长度。…

JMeter做接口测试,如何提取登录Cookie

用JMeter进行接口测试时,经常需要通过登录接口提取Cookie才能进行其他业务流程,如果cookie/token是在登录请求的响应报文里,那么可以通过正则表达式直接提取出来,但是如果Cookie不是在响应报文里,还可以怎么提取出来呢…

牛客小白月赛100(下)

ACM中的C题 题目描述 登录—专业IT笔试面试备考平台_牛客网 运行代码 #include<iostream> using namespace std; int main() {int n;cin>>n;if(n1)cout<<-1;else if(n%20)cout<<n/2;elsecout<<n/21; } 代码思路 一、总体思路 这段代码的目…

第二百二十一节 JPA教程 - JPA按ID查找示例

JPA教程 - JPA按ID查找示例 一旦我们将实体保存到数据库中&#xff0c;我们可以通过使用EntityManager中的find方法来检索它们。 以下代码显示如何使用find方法与实体id。 Person emp em.find(Person.class, 1L);例子 下面的代码来自Person.java。 package cn.w3cschool.…

Spring Boot 部署方案!打包 + Shell 脚本详解

本篇和大家分享的是springboot打包并结合shell脚本命令部署&#xff0c;重点在分享一个shell程序启动工具&#xff0c;希望能便利工作&#xff1b; profiles指定不同环境的配置 maven-assembly-plugin打发布压缩包 分享shenniu_publish.sh程序启动工具 linux上使用shenniu_p…

Telephony VOLTE配置

1、展锐 VOLTE配置 在配置运营商VOLTE业务时&#xff0c;虽然上层Carrierconfig默认配置VOLTE为关闭状态&#xff0c;但是发现只需要Modem侧配置为支持&#xff0c;上层就能够正常显示VOLTE开关。因此调查了一下相关逻辑 相关代码中可以看到只要"gsm.sys.sim.volte.allowe…

Enscape 4.1.0.2321 安装教程

软件介绍 Enscape 是专门为建筑、规划、景观及室内设计师打造的渲染产品&#xff0c;无需导入导出文件&#xff0c;在常用的软件内部即可看到逼真的渲染效果。 你无需了解记忆各种参数的用法&#xff0c;一切都是傻瓜式的一键渲染&#xff0c;你可以把精力更多地投入到设计中…

极限编程XP例题

答案&#xff1a;D 解析&#xff1a; 结对编程&#xff0c;一个人写代码&#xff0c;一个人看&#xff0c;由于是两个或两个以上的人负责&#xff0c;因此选项A 支持共同代码拥有和共同对系统负责是正确的 选项B 由于是一个人写一个人看&#xff0c;变相实现了代码审查 选项…

AI基础 L16 Logic Agents I

What is an Agent? • The main point about agents is they are autonomous: capable of acting independently, exhibiting control over their internal state • Thus: an agent is a computer system capable of autonomous action in some environment in order to mee…

网络编程(TCP通信)

【1】认识网络 网络&#xff1a;多设备通信 【2】IP地址 1.基本概念 IP地址是Internet中主机的标识Internet中的主机要与别的机器通信必须具有一个IP地址IP地址为32位&#xff08;IPv4&#xff09;或者128位&#xff08;IPv6&#xff09; NAT&#xff1a;公网转私网、私网转公网…

小样本目标定位:Few-shot Object Localization

论文&#xff1a;Few-shot Object Localization 代码&#xff1a;https://github.com/Ryh1218/FSOL 核心贡献&#xff1a; 1. 本文首次定义了小样本目标定位任务&#xff0c;为在标注数据有限的场景下进行目标定位提出了新的研究方向&#xff0c;并建立了高性能的基准。2. 提…

【详解!】什么是端点安全,端点安全策略如何设置?30秒带你了解端点安全!

端点&#xff0c;即接入网络的任何设备&#xff0c;如个人电脑、笔记本电脑、智能手机、平板电脑、服务器以及物联网(IoT)设备等&#xff0c;都是网络安全的潜在风险点。 端点安全&#xff0c;正是针对这些设备所采取的一系列安全措施&#xff0c;旨在保护它们免受恶意软件、未…

CSS【详解】图片相关样式(含object-fit ,object-position,lip-path,filter)

img 渲染图片&#xff0c;可以理解为一张镂空的白纸&#xff0c;通过镂空区域看到白纸下的图片。 图片尺寸 即镂空区域的大小 若未指定&#xff0c;则按图片原始尺寸显示&#xff1b;若指定&#xff0c;则默认按指定尺寸显示&#xff08;若指定尺寸的宽高比与原始的宽高比不同…

【虚拟化】KVM-virsh离线工具进行客户机虚拟机磁盘访问

目录 一、简介 二、常用离线命令 三、具体使用实例 1.virt-inspector 2.virt-cat 3.virt-edit 4.virt-df 5.virt-copy-out/virt-copy-in 6.guestmount 7.virt-diff 8.virt-customize 9.virt-sparsify 一、简介 Red Hat Enterprise Linux 7 提供多个 libguestfs 工具…

Leetcode 最长连续序列

算法流程&#xff1a; 哈希集合去重&#xff1a; 通过将数组中的所有元素放入 unordered_set&#xff0c;自动去除重复元素。集合的查找操作是 O(1)&#xff0c;这为后续的快速查找提供了保证。 遍历数组&#xff1a; 遍历数组中的每一个元素。对于每个元素&#xff0c;首先检…

OpenCV 与 YoloV3的结合使用:目标实时跟踪

目录 代码分析 1. YOLO 模型加载 2. 视频加载与初始化 3. 视频帧处理 4. 物体检测 5. 处理检测结果 6. 边界框和类别显示 7. 帧率&#xff08;FPS&#xff09;计算 8. 结果显示与退出 9. 资源释放 整体代码 效果展示 总结 代码分析 这段代码使用 YOLO&#xff08…

C++之函数的分文件编写

1.创建test.h的头文件 2.创建test.cpp的源文件 3.在头文件中写函数的声明 4.在源文件中写函数的定义 调用测试&#xff1a;

优雅的实现SSL证书的免费申请和续期【FreeSSL】

在今年上半年&#xff0c;各大厂商纷纷调整了免费SSL证书的有效期&#xff0c;将其从12个月缩短至3个月。这一变动给那些管理大量免费证书的人带来了很多麻烦&#xff0c;因为需要频繁地进行申请和部署。 今天我要介绍的是一种自动化申请证书的流程&#xff0c;可以实现多域名…

Python进阶——使用python操作数据库!

Python进阶——使用python操作数据库 一、数据库编程接口 为了对数据库进行统一操作&#xff0c;大多数语言都提供了简单的、标准的数据库接口python database api 2.0中&#xff0c;定义了python数据库api接口的各个部分&#xff0c;如模块接口、连接对象、游标对象、类型对…

物联网——DMA+AD多通道

DMA简介 存储器映像 某些数据在运行时不会发生变化&#xff0c;则设置为常量&#xff0c;存在Flash存储器中&#xff0c;节省运行内存的空间 DMA结构图 DMA访问权限高于cpu 结构要素 软件触发源&#xff1a;存储器到存储器传输完成后&#xff0c;计数器清零 硬件触发源&…