【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)

news2025/1/23 21:15:28

这节可以搭配

    • 【机器学习】Logistic回归(重新整理)
    • 信息量(信息)
      • 信息量公式的推理过程
    • 香农熵
    • 信息增益

【机器学习】Logistic回归(重新整理)

B站视频:“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”

信息量(信息)

举个例子:
  如果有人告诉你,今天太阳从东边出来了,那么这条信息的信息量就很低,因为每天的太阳常常从东边出来。
 但是,突然某一天有人告诉你,今天太阳是从西边出来的,那么这条信息的信息量就很高,因为,在你的意识里,太阳几乎不可能从西边出来

“很高”,“很低”这些都是很模糊的形容词,那么我们怎么量化这些信息程度呢?哎嘿!这就是信息量。

信息量公式的推理过程

“日出东方”这是一个大概率事件,其携带信息量很少。而“日出西方”是一个小概率事件,它所携带的信息量就很大了。

从上面可以得出一个结论就是:信息量的高低总是和一个事件的概率负相关(片面理解)

猜想一:那么是不是 1 p i \frac{1}{p_i} pi1 p i p_i pi事件i发生的概率)就可以量化的表示信息的信息量了。
答:不完全正确,虽然在一些情况下,信息量可以通过一个事件发生的概率来表示,但是 1 p i \frac{1}{p_i} pi1并不能准确地表示信息量.

知识点一:在信息论中,通常使用负对数函数来计算信息量。对于一个事件 i,其信息量 I i I_i Ii 可以表示为: I i : = − l o g 2 p i I_i:=-log_2p_i Ii:=log2pi
其中 p i p_i pi表示事件i发生的概率

这个公式的物理意义是,当事件 i 发生的概率越小时,其所包含的信息量就越大。例如,在一组有 8 个等概率的符号中选出一个符号,它所包含的信息量为 − l o g 2 ( 1 8 ) = 3 -log_2(\frac{1}{8})=3 log2(81)=3比特。而当在同一组符号中选出一个概率为 1 的符号时,它所包含的信息量为 − l o g 2 1 = 0 -log_21=0 log21=0 比特。

以2为底的优势就是单位为比特,这个写进了信息量的定义,不能更改。 log的优势是可以将P(AB) = P(A)·P(B) 转化为 I(AB) = I(A)+I(B),逻辑自洽。

香农熵

给定题目:有一枚均匀的硬币 C 1 C_1 C1(正面的概率和抛反面概率都是0.5),还有一枚不均匀的硬币 C 2 C_2 C2(正面概率0.8,反面概率0.2)

  • 事件A:正面
  • 事件B:反面

事件(A|B)发生的难度有多大?这就是熵

简单说,就是

  • 信息量:衡量某一具体事件从不确定到确定的难度大小
  • 熵:衡量整个系统的所有事件从不确定到确定的难度大小

猜想二:是不是可以简单的将系统中的所有事件的信息量加和大小作为整个系统的香农熵值?
答:不完全正确。香农熵是用来衡量一个系统的不确定性或者信息量的度量方式。在信息论中,香农熵通常被定义为一个系统中所有可能事件的信息量的期望值。

知识点一:香农熵是信息论中的一个概念,通常用符号H表示。它描述的是一个离散信源所产生的信息量的平均值。具体地说,如果一个离散信源可以发出n个符号,每个符号出现的概率分别为p1,p2,…,pn,那么这个信源每产生一个符号所带来的信息量就是-log2(pi)(以2为底的对数),而香农熵就是所有符号的信息量的平均值: H = − ∑ p ( x ) ⋅ l o g 2 p ( x ) H=-\sum p(x)·log_2{p(x)} H=p(x)log2p(x)

如果将第一个p(x)修改为y,变化后的公式就是交叉熵。想一想为啥?提示:KL散度

结合上面例子,系统 C 1 、 C 2 C_1、C_2 C1C2的香农熵就是
H C 1 = − ( 0.5 ∗ l o g 2 ( 0.5 ) + 0.5 ∗ l o g 2 ( 0.5 ) ) = 1 H_{C_1}=-(0.5*log_2(0.5)+0.5*log_2(0.5))=1 HC1=(0.5log2(0.5)+0.5log2(0.5))=1
H C 2 = − ( 0.8 ∗ l o g 2 ( 0.8 ) + 0.2 ∗ l o g 2 ( 0.2 ) ) ≈ 0.722 H_{C_2}=-(0.8*log_2(0.8)+0.2*log_2(0.2))≈0.722 HC2=(0.8log2(0.8)+0.2log2(0.2))0.722

信息增益

其公式为:
G a i n ( D , A ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) Gain(D,A)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v) Gain(D,A)=H(D)v=1VDDvH(Dv)
其中 D v D_v Dv为划分数据集(子集)
它表示的含义是,划分过后,新的集合相对于原集合减少了多少不确定性,比如
给定数据:
数据拟定背景:小明想出去玩?

IDClassWindTempOutlook
1PlayWeakHotSunny
2PlayStrongHotSunny
3StayWeakHotRain
4PlayWeakMidOvercast
5StayStrongColdRain
6PlayWeakColdOvercast
7StayStrongColdRain
8PlayWeakMidSunny
9PlayWeakColdSunny
10PlayStrongMidOvercast
11StayWeakMidSunny
12StayStrongMidRain
13PlayWeakHotOvercast
14PlayWeakColdRain
  • 对于系统香农熵 H ( D ) H(D) H(D)
ClassCount
play6
stay4

H ( D ) = − ∑ p ( x ) ⋅ l o g 2 p ( x ) = − ( 9 14 l o g 2 9 14 + 5 14 l o g 2 5 14 ) = 0.94 H(D)=-\sum p(x)·log_2{p(x)}=-(\frac{9}{14}log_2\frac{9}{14}+\frac{5}{14}log_2\frac{5}{14})=0.94 H(D)=p(x)log2p(x)=(149log2149+145log2145)=0.94

  • 计算关于Wind的信息增益
WeakStrong
Play72
Stay23

H ( D w e a k ) = − ( 7 9 l o g 2 7 9 + 2 9 l o g 2 2 9 ) = 0.764 H(D_{weak})=-(\frac{7}{9}log_2\frac{7}{9}+\frac{2}{9}log_2\frac{2}{9})=0.764 H(Dweak)=(97log297+92log292)=0.764
H ( D s t r o n g ) = − ( 2 5 l o g 2 2 5 + 3 5 l o g 2 3 5 ) = 0.970 H(D_{strong})=-(\frac{2}{5}log_2\frac{2}{5}+\frac{3}{5}log_2\frac{3}{5})=0.970 H(Dstrong)=(52log252+53log253)=0.970
G a i n ( D , W i n d ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 9 14 H ( D w e a k ) + 5 14 H ( D s t r o n g ) ) = 0.102 Gain(D,Wind)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{9}{14}H(D_{weak})+\frac{5}{14}H(D_{strong}))=0.102 Gain(D,Wind)=H(D)v=1VDDvH(Dv)=H(D)(149H(Dweak)+145H(Dstrong))=0.102

  • 计算关于Temperature的信息增益
HotMidCold
Play333
Stay122

H ( D H o t ) = − ( 3 4 l o g 2 3 4 + 1 4 l o g 2 1 4 ) = 0.811 H(D_{Hot})=-(\frac{3}{4}log_2\frac{3}{4}+\frac{1}{4}log_2\frac{1}{4})=0.811 H(DHot)=(43log243+41log241)=0.811
H ( D M i d ) = − ( 3 5 l o g 2 3 5 + 2 5 l o g 2 2 5 ) = 0.970 H(D_{Mid})=-(\frac{3}{5}log_2\frac{3}{5}+\frac{2}{5}log_2\frac{2}{5})=0.970 H(DMid)=(53log253+52log252)=0.970
H ( D C o l d ) = − ( 3 5 l o g 2 3 5 + 2 5 l o g 2 2 5 ) = 0.970 H(D_{Cold})=-(\frac{3}{5}log_2\frac{3}{5}+\frac{2}{5}log_2\frac{2}{5})=0.970 H(DCold)=(53log253+52log252)=0.970
G a i n ( D , T e m p ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 4 14 H ( D H o t ) + 5 14 H ( D M i d ) + 5 14 H ( D C o l d ) ) = 0.008 Gain(D,Temp)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{4}{14}H(D_{Hot})+\frac{5}{14}H(D_{Mid})+\frac{5}{14}H(D_{Cold}))=0.008 Gain(D,Temp)=H(D)v=1VDDvH(Dv)=H(D)(144H(DHot)+145H(DMid)+145H(DCold))=0.008

  • 计算关于Outlook的信息增益
SunnyOvercastRain
Play441
Stay104

H ( D S u n n y ) = − ( 4 5 l o g 2 4 5 + 1 5 l o g 2 1 5 ) = 0.722 H(D_{Sunny})=-(\frac{4}{5}log_2\frac{4}{5}+\frac{1}{5}log_2\frac{1}{5})=0.722 H(DSunny)=(54log254+51log251)=0.722
H ( D O v e r c a s t ) = − ( 4 4 l o g 2 4 4 + 0 4 l o g 2 0 4 ) = 0 H(D_{Overcast})=-(\frac{4}{4}log_2\frac{4}{4}+\frac{0}{4}log_2\frac{0}{4})=0 H(DOvercast)=(44log244+40log240)=0
H ( D R a i n ) = − ( 1 5 l o g 2 1 5 + 4 5 l o g 2 4 5 ) = 0.722 H(D_{Rain})=-(\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5})=0.722 H(DRain)=(51log251+54log254)=0.722
G a i n ( D , O u t l o o k ) = H ( D ) − ∑ v = 1 V ∣ D v ∣ D H ( D v ) = H ( D ) − ( 5 14 H ( D S u n n y ) + 4 14 H ( D O v e r c a s t ) + 5 14 H ( D R a i n ) ) = 0.424 Gain(D,Outlook)=H(D)-\sum_{v=1}^{V}\frac{|D_v|}{D}H(D_v)=H(D)-(\frac{5}{14}H(D_{Sunny})+\frac{4}{14}H(D_{Overcast})+\frac{5}{14}H(D_{Rain}))=0.424 Gain(D,Outlook)=H(D)v=1VDDvH(Dv)=H(D)(145H(DSunny)+144H(DOvercast)+145H(DRain))=0.424

  • 信息增益汇总
windTempOutlook
信息增益0.1020.0080.424

不难看出,小明去不去玩啊,温度只能减少0.008的不确定性,但是天气景观(Outlook)可以减少0.424的不确定性,那我们是不是说Outlook更重要一些,更适合作为重要决策节点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/510525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

医学影像系统源码,三维后处理和重建 PACS源码

医学影像系统源码,三维后处理和重建 PACS源码 医学影像系统由PACS系统、RIS系统组成,提供与HIS的接口(HL7或其他类型)。 主要功能介绍 信息预约登记 支持对患者、检查项目、申请医生、申请单据、设备等信息进行管理。且支持检查…

Apache网站部署SSL证书开启https访问,强制http跳转https

centos服务器博客网站安装教程可见:Centos 7.X WordPress博客网站详细教程 FTP/PHP/mysql/Apache环境构建_autotian的博客-CSDN博客本文详细的介绍了centos7.x系统下,如何构建FTP、mysql、PHP、Apache环境,并成功安装WordPress博客网站。http…

Java—JDK8新特性—函数式接口【内含思维导图】

目录 3.函数式接口 思维导图 3.1 什么是函数式接口 3.2 functionalinterface注解 源码分析 3.3 Lambda表达式和函数式接口关系 3.4 使用函数式接口 3.5 内置函数式接口 四大核的函数式接口区别 3.5.1 Supplier 函数式接口源码分析 3.5.2 Supplier 函数式接口使用 3.…

基于AT89C51单片机的篮球计时记分设计

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/87771065 源码获取 主要内容: 基于51单片机设计篮球计时计分器,结合单片机串行接口原理,用AT89C51设计一个篮球比赛计分计时器,能够通过数码管显示分数和比赛时间(并设有…

linux驱动-gpio

最近处理es8336声卡问题,最后排查是spk_ctl_gpio和hp_det_gpio这两个gpio导致的,所以恶补了一下gpio相关的知识,现在总结一下。 源代码使用的是飞腾的gitee上开源的内核:https://gitee.com/phytium_embedded/phytium-linux-kernel…

什么是SVG格式?如何制作?

图像质量对页面非常重要——扭曲和缩放变形的标志、图标或照片会使页面看起来粗糙和不协调,这个问题只会因为响应设计而复杂。 访问者通过桌面机和智能手机查看应用程序,因此无论使用什么设备,图像都应该进行优化。如果有一个数字格式可以让…

基于FPGA+JESD204B 时钟双通道 6.4GSPS 高速数据采集设计(三)连续多段触发存储及传输逻辑设计

本章将完成数据速率为 80MHz 、位宽为 12bits 的 80 路并行采样数据的连续多 段触发存储。首先,给出数据触发存储的整体框架及功能模块划分。然后,简介 MIG 用户接口、设置及读写时序。最后,进行数据跨时钟域模块设计,内存…

XC7VX690T PCIE 硬件设计注意事项

首先参考PG023找到对应封装支持的位置 然后参考UG476找到对应的实际物理位置 XILINX 也有给出对应的推荐位置

gitlab服务器发送邮件配置

1.修改gitlab的配置文件: vim /etc/gitlab/gitlab.rb 这里具体的gitlab.rb文件所在路径需要根据实际的来 找到如下图所示的部分,放开注释,修改配置,此处我用的发件邮箱是QQ邮箱,所以域名配置都是qq.com,…

Springboot application/yaml/yml没有提示解决方案

有下面提示别安装该插件 卸载wl spring assistant plugin就好了,标志是yml图标变成六边形

线程间互斥-mutex互斥锁和lock_guard

要点 锁双重判断的技法 竟态条件:多线程程序执行的结果一致,不会随着CPU对线程不同的调用顺序 线程间安全实例——3个窗口同时卖票 线程不安全的代码如下 int ticketCount 100; // 100张车票 // 模拟10个窗口同时卖票 void sellTicket(int index) …

PostgreSQL11 | 索引

截止到上一篇《PostgreSQL11 | 查询数据》属于pgsql的基础部分就算是都总结完了,从这一篇(第9章)开始一直到本专栏最后一篇文章(第14章)都是进阶部分,sql量会减弱,抽象的概念会越来越多&#xf…

数字识别问题

文章目录 6.1 MNIST数据处理6.2.1 训练数据6.2.2 变量管理6.3.1 保存模型6.3.1 加载计算图6.3.1 加载模型6.3.2 导出元图 6.1 MNIST数据处理 在直接在第6章的目录下面创建文件 compat.v1.是tensorflow2.x的语法,全部删掉 删除compat.v1.后的代码 # -*- coding: …

【SCI一区】考虑P2G和碳捕集设备的热电联供综合能源系统优化调度模型(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

学术必备的21个论文网站,建议收藏!

1、综合型论文网站(国内) (1)知网 介绍:国内知名度最高的网站,拥有上亿篇各种论文期刊,包含中国学术文献、 外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导 航、…

第四章 图像的形态学操作

文章目录 前言一、阈值控制二、腐蚀与膨胀1.腐蚀2.膨胀3.形态学操作 总结 前言 前面讲解了图像基础理论、图像的变换以及图像滤波等操作,本章,将会介绍图像的形态学操作。 图像的形态学指的是一组数学方法和工具,用于图像分析和处理。形态学…

(7)Qt---文件IO

目录 1. QFileDialog 文件选择对话框** 2. QFileInfo 文件信息类** 3. QFile 文件读写类*** 4. UI与耗时操作** 5. QThread 线程类 5.1 复现阻塞 5.2 新建并启动子线程 5.3 异步刷新 5.4 停止线程 1. QFileDialog 文件选择对话框** 操作系统会提供一个统一样式的文件选择对话框…

从本地到云端:豆瓣如何使用 JuiceFS 实现统一的数据存储

豆瓣成立于 2005 年,是中国最早的社交网站之一。在 2009 到 2019 的十年间,豆瓣数据平台经历了几轮变迁,形成了 DPark Mesos MooseFS 的架构。 由机房全面上云的过程中,原有这套架构并不能很好的利用云的特性,豆瓣需…

少林派问题汇总

少林派问题汇总: Q: A:缺少bmodel,没有指定bmodel的路径,测试图片不在同一文件路径下 复制过来就解决了 Q: docker容器下运行./install_lib.sh nntc会rm不到文件怎么回事? A:文件已经被删除 Q: 我将pytorch的模型用export工具转换成.torch…

聚焦丨酷雷曼荣列XRMA联盟成员单位

自“元宇宙”概念兴起之初,酷雷曼VR所属北京同创蓝天云科技有限公司就积极布局、探索和实践。2022年12月,酷雷曼VR成功加入虚拟现实与元宇宙产业联盟(XRMA),正式被接纳为联盟成员单位,意味着酷雷曼公司将进…