【深度学习】0-2 深度学习相关数学概念的简单总结-概率与信息论

news2025/2/12 11:24:46

样本空间
样本空间是一个实验或随机试验所有可能结果的集合,随机试验中的每个可能结果称为样本点。例如投掷一个骰子,那么样本空间就是{1,2,3,4,5,6}。

随机变量
随机变量,顾名思义,就是“其值随机而定”的变量,一个随机试验有许多可能结果,到底出现哪个预先是不知道的,其结果只有等到试验完成后才能确定
如掷骰子,掷出的点数X是一个随机变量,它可以取1、2、3、4、5、6中的任何一个,到底是哪一个,要等掷了骰子以后才知道。

概率分布
概率分布用来描述随机变量(含随机向量)在每一个可能状态的可能性大小
对于随机变量X,其概率分布通常记为P(X=x),或X~P(x),表示X服从概率分布P(x)。在实际应用中,通常比较关心随机变量落在某一区间的概率,为此,引入分布函数的概念。

分布函数
定义:设X是一个随机变量,xk是任意实数值,函数:
在这里插入图片描述
称为随机变量X的分布函数。
对任意的实数x1、x2(x1<x2),有:
在这里插入图片描述
成立。上面式子表明若随机变量X的分布函数已知,那么可以求出X落在任意一区间[x1,x2]的概率。

离散型随机变量
设x1,x2,…,xn是随机变量X的所有可能取值,对每个取值xi,X=xi是其样本空间S上的一个事件,为描述随机变量X,还需知道这些事件发生的可能性(概率)。
设离散型随机变量X的所有可能取值为xi(i=1,2,…,n):
在这里插入图片描述
称为X的概率分布或分布律,也称概率函数

常见的离散随机变量的分布有:
两点分布
若随机变量X只可能取0和1两个值,且它的分布列为P(X=1)=p,P(X=0)=l-P,其中(0<P<1),则称X服从参数为p的两点分布,记作X~B(1,p)。其分布函数为:
在这里插入图片描述

二项分布
一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,假设某样品在随机一次试验出现的概率为p,那么在n次试验中出现k次的概率为:
在这里插入图片描述
假设随机变量X满足二项分布,且知道n、p、k等参数,如何求出各种情况的概率值呢?这里介绍一种比较简单的方法,利用scipy库的统计接口stats即可,具体如下:

import numpy as np
import matplotlib.pyplot as plt
import math
from scipy import stats

%matplotlib inline
n = 20
p = 0.3
k = np.arange(0,41)
#定义二项分布
binomial = stats.binom.pmf(k,n,p)
#二项分布可视化
plt.plot(k, binomial, 'o-')
plt.title('binomial:n=%i,p=%.2f'%(n,p),fontsize=15)
plt.xlabel('number of success')
plt.ylabel('probalility of success', fontsize=15)
plt.grid(True)
plt.show()

运行结果如图:
在这里插入图片描述

连续型随机变量
与离散型随机变量不同,连续型随机变量采用概率密度函数来描述变量的概率分布
如果一个函数f(x)是密度函数,满足以下三个性质,我们就称f(x)为概率密度函数

  1. f(x)≥0,注意这里不要求f(x)≤1。
  2. 在这里插入图片描述
  3. 对于任意实数x1和x2,且x1≤x2,有:在这里插入图片描述
    第2个性质表明,概率密度函数f(x)与x轴形成的区域的面积等于1

正态分布
也称“常态分布”,又名高斯分布,正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。正态分布是一种理想分布。

用python来实现正太分布

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
#平均值或期望值
mu=0
#标准差
sigma1=1
sigma2=2
#随机变量的取值
x=np.arange(-6,6,0.1)
y1=stats.norm.pdf(x,0,1)  #定义正态分布的密度函数
2=stats.norm.pdf(x,0,2) #定义正态分布的密度函数
plt.plot(x,y1,label='sigma is 1')
plt.plot(x,y2,label='sigma is 2')
plt.title('normal $\mu$=%.1f,$\sigma$=%.1f or %.1f '%(mu,sigma1,sigma2))
plt.xlabel('x')
plt.ylabel('probability density')
plt.legend(loc='upper left')
plt.show()

sigmal系统与正态分布如下图所示:
在这里插入图片描述

期望值
衡量随机变量的取值大小,数学期望也常称为均值,即随机变量取值的平均值,当然这个平均是指以概率为权的加权平均。期望值可大致描述数据的大小,但无法描述数据的离散程度。

方差
衡量随机变量数据离散程度
假设随机向量X有均值E(X)=a。试验中,X取的值当然不一定恰好是a,可能会有所偏离。偏离的量X-a本身也是一个随机变量。如果我们用X-a来刻画随机变量X的离散程度,当然不能取X-a的均值,因E(X-a)=0,说明正负偏离抵消了,当然我们可以取|X-a|这样可以防止正负抵消的情况,但绝对值在实际运算时很不方便。那么可以考虑另一种方法,先对X-a平方以便消去符号,然后再取平均得E(X-a)2或E(X-EX)2,用它来衡量随机变量X的取值的离散程度,这个量就叫作X的方差(即差的方)

协调方差
揭示随机向量间关系
对于多维随机向量,如二维随机向量(X,Y)如何刻画这些分量间的关系?显然均值、方差都无能为力。这里我们引入协方差的定义,我们知道方差是X-EX乘以X-EX的均值,如果我们把其中一个换成Y-EY,就得到E(X-EX)(Y-EY),其形式接近方差,又有X、Y两者的参与,由此得出协方差的定义,随机变量X、Y的协方差,记为Cov(X,Y):
协方差则可衡量随机变量间的相关性强度

求随机变量的方差、协方差、相关系统等,使用Python的NumPy相关的函数,如用numpy.var求方差,numpy.cov求协方差,使用numpy.corrcoef求相关系数

在机器学习中多维随机向量通常以矩阵的方式出现,所以求随机变量间的线性相关性,就转换为求矩阵中列或行的线性相关性

这里我们举一个简单实例,来说明如果分析向量间的线性相关性并可视化结果。这个例子中使用的随机向量(或特征值)共有三个,一个是气温(temp),一个体感温度(atemp),一个是标签(label,说明共享单车每日出租量),下表是这三个特征的部分数据
在这里插入图片描述
这里使用Python中数据分析库pandas及画图库matplotlib、sns等。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
data_pd=data1.toPandas()
sns.set(style='whitegrid',context='notebook')
cols=['temp','atemp','label']
sns.pairplot(data_pd[cols],size=2.5)
plt.show()

在这里插入图片描述
可以看出,特征temp与atemp是线性相关的,其分布接近正态分布。

贝叶斯定理
贝叶斯定理是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的;然而,这两者是有确定关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。
贝叶斯公式为:
在这里插入图片描述
在贝叶斯定理中,每项都有约定俗成的名称:
·P(B|A)是已知A发生后B的条件概率,由于得自A的取值也被称作B的后验概率。
·P(B)是B的先验概率(或边缘概率)。之所以称为“先验”是因为它不考虑任何A方面的因素。
·P(A|B)是已知B发生后A的条件概率,称为似然(likelihood),也由于得自B的取值而被称作A的后验概率。
·P(A)是A的先验概率或边缘概率。

信息论

信息论主要研究的是对信号所含信息的多少进行量化。

信息量
信息量是信息论中度量信息多少的一个物理量,它从量上反应具有确定概率的事件发生时所传递的信息。

信息熵
信息熵(entropy)又简称为熵,是对随机变量不确定性的度量。
信息熵越大,包含的信息就越多,那么随机变量的不确定性就越大。

条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性。
注意,这个条件熵不是指随机变量X在给定某个数的情况下,另一个变量的熵是多少,以及变量的不确定性是多少,而是期望!因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。

条件熵比熵多了一些背景知识,按理说条件熵的不确定性小于熵的不确定性,即H(Y|X)≤H(Y)
定理:对二维随机变量(X,Y),条件熵H(Y|X)和信息熵H(Y)满足如下关系:
在这里插入图片描述

互信息
互信息(mutual information)又称为信息增益,用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。记为:
在这里插入图片描述
在决策树的特征选择中,信息增益为主要依据。在给定训练数据集D,假设数据集由n维特征构成,构建决策树时,一个核心问题就是选择哪个特征来划分数据集,使得划分后的纯度最大。一般而言,信息增益越大,意味着使用某属性a来划分所得“纯度提升”越大。因此,我们常用信息增益来构建决策树划分属性

相对熵
相对熵(relative entropy),所谓相对,一般是在两个随机变量之间来说,又被称为KL散度(Kullback-Leibler Divergence,KLD)

相对熵有些重要性质:

  1. 相对熵不是传统意义上的距离,它没有对称性
  2. 当预测分布q(x)与真实分布p(x)完全相等时,相对熵为0
  3. 如果两个分别差异越大,那么相对熵也越大;反之,如果两个分布差异越小,相对熵也越小。
  4. 相对熵满足非负性

交叉熵
交叉熵可在神经网络(机器学习)中作为代价函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵代价函数可以衡量p与q的相似性。
交叉熵作为代价函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差代价函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA全局设置JDK、Maven、编码格式

本机已安装JDK版本&#xff1a; 本机已安装Maven版本&#xff1a; 一、IDEA设置全局JDK设置 File---->New Projects Settings---->Structure for New Projects... 先将本地安装的JDK添加到SDK 将项目SDK设置为刚刚添加的本地JDK版本 File---->New Projects Settings-…

Webstorm 加载vue项目时,特别卡顿,完美解决。觉得有用加好友打赏

觉得有用加好友打赏&#xff1a;QQ&#xff1a;854138497 上图cpu直接干满。 根据上图提示&#xff0c;直接 disable hints&#xff0c;或者到下图的settings里面设置。 Code vision取消后&#xff0c;webstorm 明显就不卡了。记得重启webstorm。 还有一种方式&#xff0c;根…

完美解决MacOS关于ld: library not found for -lnetcdff错误

1. 问题描述 在使用Intel版本的Mac编译某个程序时出现了错误&#xff0c;显示如下图。 说明&#xff1a;libnetcdff是netcdf的Fortran的接口&#xff0c;如下ChatGPT解释。 2. 出现的原因 原因是Makefile中定义的静态库链接并没有在系统默认的库路径下找到&#xff0c;默认…

Jmeter HTTP Cookie管理器的使用

目录 前言&#xff1a; 1、在HTTP信息头管理器组件中添加Cookie信息 &#xff08;1&#xff09;测试计划内包含的元件 &#xff08;2&#xff09;请求取样器内容 &#xff08;3&#xff09;HTTP信息头管理器内容 &#xff08;4&#xff09;查看结果 2、使用HTTP Cookie管…

你想知道的 MySQL 性能调优方式,都在这里

前言&#xff1a;对于性能测试来说&#xff0c;数据库的监控是尤为的重要&#xff0c;以及对数据库进行调优&#xff0c;用以提升性能&#xff0c;是能在短期内有显著的效果的&#xff0c;本文针对MySQL数据库进行分析如何定位MySQL数据库的性能问题。 关键 MySQL 统计指标 如…

一张软考系统架构设计师证书到底能证明了什么?

软考证书证明你考过了软考高级架构&#xff0c;拥有了评高级职称的资格&#xff01; 证书的作用还有&#xff1a; 1、以考代评&#xff1a;软考证书可以用来评职称 2、积分落户&#xff1a;可用于积分落户&#xff0c;加相应的分&#xff0c;软考高级职业资格都几乎可以直接…

Tinker 组件修复,踩坑

1、You need to use a Theme.AppCompat theme (or descendant) with this activity. 复现步骤 补丁加载成功之后重启应用&#xff0c;再退出应用重进闪退 日志 TinkerUncaughtHandler catch exception:java.lang.IllegalStateException: You need to use a Theme.AppCompat th…

Cesium教程(十七):淹没分析

Cesium教程(十七):淹没分析 1、什么是淹没分析 淹没分析是根据某片区域的地形及洪水流量速度,动态模拟该地形区域水位逐渐上涨的淹没过程。该功能可适用于山区、丘陵等地形起伏较大区域,模拟洪水涨到安全限定高度的淹没过程,为防洪水救灾提供一定的参考。此外,还可以为河…

红帽认证常见答疑(二):电脑配置、实验环境和考试环境、可以自学吗

学习红帽需要配置什么样的电脑&#xff1f; RHCE推荐学员自己的电脑内存在16G左右&#xff0c;RHCA推荐学员电脑内存在32-64G&#xff0c;且最好配置128G以上的固态硬盘&#xff0c;如果自己没有该配置的电脑&#xff0c;誉天可以提供远程学习环境&#xff0c;可以随时随地连接…

Java中常用的工具类——字符串类

提示&#xff1a;字符串类是编程中最常用的一种数据类型&#xff0c;比较重要❗ 文章目录 前言一、字符串类创建对象方式静态创建动态创建 二、String字符串内容不可改变三、字符串常用方法length方法charAt方法substring方法indexOf与lastIndexOfindexOf方法lastIndexOf方法 替…

企业即时通信软件有哪些?要如何选择?

随着企业数字化转型的加速&#xff0c;即时通信软件已成为企业日常沟通的重要工具。但是市面上的企业即时通信软件种类繁多&#xff0c;如何选择适合自己企业的即时通信软件呢&#xff1f;本文将为大家介绍几款常用的企业即时通信软件以及如何选择。 企业微信 企业微信是腾讯公…

牛逼!Windows竟然也能运行QEMU虚拟机!

这些天研究 Miracast&#xff0c;又倒腾了开发用的虚拟机&#xff0c;但是发现了新的东西就是 QEMU ——全宇宙最强的硬件模拟器&#xff0c;原来这玩意可以在Windows上跑虚拟机的。 环境部署 msys2mingw-w64-qemu系统isoHyper-V 代替 KVM/Linux 安装 在 Msys2 Repo下载exe…

【服务器数据恢复】RAID5重建导致数据丢失的数据恢复案例

服务器数据恢复环境&#xff1a; HP某型号服务器&#xff0c;5块硬盘组建了一组raid5磁盘阵列。 服务器故障&分析&#xff1a; 服务器在工作过程中&#xff0c;raid5磁盘阵列中的一块磁盘掉线&#xff0c;由于raid5的容错特点&#xff0c;raid阵列未受影响&#xff0c;工作…

弥合风险缺口 筑牢共享安全|2023开放原子全球开源峰会开源安全技术与实践分论坛成功举办

6 月 12 日&#xff0c;2023 开放原子全球开源峰会开源安全技术与实践分论坛成功举办。本场论坛围绕开源软件供应链、开源漏洞信息共享机制、开源安全测试工具、人工智能新技术对开源安全领域的影响等方向分享了技术和最佳实践&#xff0c;讨论了开源安全领域最新产业动态。 开…

认知升维: 道、法、术、器、势

身处在严重内卷的时代&#xff0c;我们各方面面临转型调整&#xff0c;提升认知&#xff0c;更好适应说变就变|比翻书变脸还快的节奏&#xff0c;需要自身不断精进&#xff0c;不断挑战自我&#xff0c;这个世界上&#xff1a;一切都在变&#xff0c;唯独不变的是变化本身&…

enscape3.5新版本更新,神仙功能还不少

Enscape于2015年首次发布&#xff0c;已成为建筑可视化市场的关键工具之一&#xff0c;在上一次CGarchitect渲染调查中名列前十。 图片来源于CGarchitect渲染调查报告 相对于同行的其他渲染器&#xff0c;Enscape最大的优势在于它并未因为其易于使用特性而降低了品质&#xff…

一篇文章搞定《CoordinatorLayout完成电商首页》

一篇文章搞定《CoordinatorLayout完成电商首页》 前言NestedScrollNestedScrollingParentNestedScrollingChildNestedScrollingChildHelper 和 NestedScrollingParentHelper CoordinatorLayoutCoordinatorLayout知识点讲解实现后续功能 通过自定义Behavior实现Fling效果认识Beh…

操作系统课程设计 模拟FAT文件系统的设计与实现

一、 目的与要求 1.研究FAT文件系统的物理布局。 2.掌握FAT文件系统中目录的结构与目录项定义。 3.掌握文件操作如建立目录&#xff0c;建立文件&#xff0c;删除文件&#xff0c;复制文件时&#xff0c;对FAT和目录的操作步骤。 4.合理设计文件系统布局与数据结构&#xff08…

Day_49归并排序

目录 一. 归并排序的思想 1.归并排序的过程 2. 两种实现方式&#xff1a; 2.1 非递归实现方式 2.2递归实现方式 二. 归并排序的代码实现 1. 数组的辅助空间及初始化 2. 核心代码 2.1每个小组的基本设置 2.2小组内部的排序 三. 代码展示 四. 运行结果 五. 总结 一. 归并排序…

Android逆向环境搭建

逆向工具 手机root Android逆向必要条件是你需要有个Root的手机&#xff0c;最好是真机。没有root的手机&#xff0c;逆向工作很难继续下去&#xff0c;手机的话&#xff0c;能解锁OEM的都可以。手机Root的话一般有以下几步&#xff1a; 解锁OEM解锁BootLoader安装Magisk制作…