概率论与数理统计相关知识

news2024/10/1 21:45:02

本博客为《概率论与数理统计--茆诗松(第二版)》阅读笔记,目的是查漏补缺

前置知识

数学符号

连乘符号:;总和符号:;“任意”符号:∀;“存在”符号:∃

第一章:随机事件及其概率

  1. 随机事件及基础定义

随机现象所有基本结果的全体称为这个随机现象的基本空间。常用Ω={w}表示,其中元素w就是基本结果。在统计学中,基本结果w 是抽样的基本单元,故基本结果又称为样本点,基本空间又称为样本空间。

随机事件:随机现象某些基本结果组成的集合,称为随机事件,简称事件。事件的关系:包含(AB)、并(AB)、交(AB)、不相容、对立()。

两个事件的独立性:对任意两个事件 A与B,若有 P(AB)=P(A)P(B),则称事件A与B相互独立简称A与B独立。否则称事件A与B不独立。

多个事件的独立性:

  1. 条件概率

条件概率的一般定义如下:(P(A)与P(A|B)不同,本质上是事件B的发生,改变了基本空间,从而改变了P(A))

条件概率的性质:

  • 条件概率是概率,首先满足概率的三条公理:

  • 非负性:P(A|B)≥0

  • 正则性:P(Ω|B)=1

  • 可加性:假如事件A1与A2互不相容,且P(B)>0,则:

  • 由三条公理,可推出满足以下性质:

  • (对于任意的A1、A2而言,不再需要二者不相容)

  • 当B=Ω时,条件概率转化为无条件概率。

  • 特殊性质:

  • 乘法公式:任意两个事件的交的概率等于一事件的概率乘以在这事件已发生条件下另一事件的条件概率,只要它们的概率都不为零即可。第一个等式成立要求P(B)>0,第二个等式成立要求P(A)>0

  • 假如事件A与B独立,且P(B)>0,则有:反之亦然

  • 一般乘法公式:

  1. 贝叶斯公式

全概率公式:设A与B是任意两个事件,假如 ,则

贝叶斯公式(由全概率公式推出):意思就是P(B_i)已知,且P(A|B_i)可以通过试验等手段获得,则通过贝叶斯公式可以计算在给定事件A的情况下,任意事件B_i发生的条件概率。



第二章:随机变量及其概率分布

  1. 随机变量

随机变量分为:离散随机变量、连续随机变量

累积概率分布函数(CDF)

离散、连续随机变量都有各自的分布函数。

分布函数F(x)的基本性质:

  1. 离散随机变量

离散随机变量常用分布列来表示概率分布(分布列还有两种图表示方法:线条图与概率直方图):

常见的离散分布有:二项分布、泊松分布等

  • 二项分布

贝努里实验:只有两个结果(成功与失败)的试验。

n重贝努里实验:由n次相同的、独立的贝怒里试验组成的随机试验称为n重贝努里实验。

设X为n重贝努里实验成功的次数,则随机变量X可能取值为:0,1,…,n,其概率分布为:

在概率论中,称随机变量X服从二项分布 b(n, p) , 并记作二项分布的数学期望

  • 泊松分布

若随机变量服从泊松分布,即,这意味着X仅取0,1,2,…等一切非负整数,且取这些值的概率为:

泊松分布的数学期望就是参数 λ。

  1. 连续随机变量

  • 概率密度函数(PDF)

连续随机变量不能再用分布列来表示,而要改用概率密度函数(就是连续的概率曲线),数学定义如下:

连续随机变量的分布函数F(x)可以用其密度函数p(x)表示出来:

连续随机变量:分布函数F(x)是密度函数p(x)的积分,密度函数p(x)是分布函数F(x)的求导

  • 连续随机变量的数学期望:

数学期望E(X)的总结:

连续随机变量常见的分布有:正态分布

  1. 方差

在概率论和统计学中,数学期望E(X)是分布的位置特征数,它总位于分布的中心,随机变量X的取值总在其周围波动。

方差是度量随机变量X和其数学期望(E(X),即均值)之间的偏离程度( 称X-E(X)为偏差)的特征数,即度量随机变量X的离散程度,定义如下:

切比雪夫不等式

切比雪夫不等式对连续和离散两类随机变量都成立,定义如下:



第三章:多维随机变量

  1. 联合分布函数

在有些随机现象中,每个基本结果w只用一个随机变量描述是不够的,而要同时用多个,譬如同时用n 个随机变量,去描述。

多维随机变量的概率分布可以用联合分布函数来表示,定义如下:

对于联合分布函数,使一个随机变量比如,则可以得到另一个变量的分布函数(或),称为联合分布函数边缘分布函数,简称边缘分布

对于多维连续随机变量(以二维为例),其联合分布函数如下:

  1. 条件分布和边缘密度函数

连续随机变量的条件分布:(X,Y)是二维连续随机变量,p(x,y)是其联合密度函数,是其边缘密度函数

在给定Y=y下X的条件密度函数为:

在给定X=x下Y的条件密度函数为:

  • 构造联合分布p(x,y)

用一个变量的分布与这个变量给定下另一个变量的条件分布可给出联合分布:

  • 全概率公式的密度函数形式

假如能获得X的密度函数及在X给定下Y的条件密度函数则由其乘积的积分可得Y的边缘分布:

  • 贝叶斯公式的密度函数形式

将上面两个式子进行合并 ,可得贝叶斯公式的密度函数形式如下,贝叶斯公式的离散形式已在第一章中讨论:

  1. 协方差

多维随机变量的数学期望与方差只利用其边缘分布所提供的信息,没有涉及诸个分量之间关系的信息。这里将提出一个新的特征数——协方差,它将能反映多维随机变量各分量间的关系。

X与Y的协方差是X的偏差与Y的偏差乘积的数学期望,定义如下:

协方差的性质:

  • 若X与Y独立,,则

  1. 相关系数

两个随机变量之间的关系可分为独立和相依(即不独立),在相依中又可分为线性相依和非线性相依,由于非线性相依种类繁多,至今尚无实用指标来区分他们,但线性相依度可用线性相关系数来刻划,这一段将研究刻划两个变量之间线性相关程度的特征数:相关系数

定义如下:

  1. 变量独立性的判别

  • “独立”与“不相关”

两个随机变量间的独立与不相关是两个不同概念。“相关”是指线性相关,“不相关”只说明两个随机变量之间没有线性关系,而“独立”说明两个随机变量之间既无线性关系,也无非线性关系,所以“独立”必导致“不相关”,反之不然。

  • 变量独立性判别

其实遵从的是最简单的条件,以下条件任意一条即可(参考):

  • 满足此即可判定AB相互独立,反映在CDF上,其实就是两个函数的每个点相乘等于其联合分布的对应点而已,宏观看起来,无非就是两个函数相乘等于概率密度函数,也就是:

  • 相应的,pdf可以判定,cdf也可以判定,因为积分操作是线性的:

  • 与其他变量的联合分布的边缘密度等于自己的概率密度,则相互独立。其对应条件概率条件,反映在连续性变量中,就是

  1. 随机变量的矩

容易看出,一阶原点矩就是数学期望,二阶中心矩就是方差。

特别低,样本的高阶矩定义如下:

样本的方差与标准差:

第五章:参数估计

参数估计问题:参数估计中所讨论的参数不仅仅指总体分布中所含的参数θ,还包括分布的各种特征数(均值、方差、标准差等),精确的确定这些参数是困难的,我们只能通过样本提供的信息对它们作出某种估计,这就是参数估计问题。

参数估计就是根据样本统计量的数值对总体参数进行估计的过程。

θ是总体的一个待估参数,其一切可能取值构成的参数空间记为

参数估计的形式有两种:点估计与区间估计。点估计是估计出一个分布中未知参数的值,区间估计则是估计出一个分布中未知参数所在的范围

  1. 点估计

参数的点估计,是要构造一个统计量,然后使用去估计θ,称为θ的点估计或估计量,或简称估计。将样本观测值带入后便得到了θ的一个点估计值

矩法估计

矩法估计的核心就是:用样本矩估计总体矩,用样本矩的相应函数估计总体矩的函数。(就是先用总体矩去构造一个表达所求参数θ的函数,然后用样本矩估计(代替)总体矩,计算参数θ)

具体的方法就是:通过计算样本的矩,来充当分布X的矩,从而估计出总体分布X的参数θ。流程如下:

计算例子如下:

矩法估计的优点是计算简单,且在总体分布未知场合也可使用。它的缺点是不唯一,譬如泊松分布 P(λ),由于其均值和方差都是λ,因而可以用去估计λ,也可以用去估计λ;此外样本各阶矩的观测值受异常值影响较大,从而不够稳健。

点估计的评价标准

参数的点估计实质上是构造一个估计量去估计未知参数,上节讲的矩法估计是用各种矩去构造估计量的一种方法。自然也可以用其他估计量去估计,为此就需要有评价估计好坏的准则。

无偏性

我们希望所得的估计从平均意义上来讲与θ越接近越好,当其差值为0时便产生了无偏估计的概念:

对于θ的两个无偏估计,可以通过比较他们的方差来判断哪个更好,但对于有偏估计而言,比较方差意义不大,我们关心的是估计值围绕其真值波动的大小,因而引入均方误差准则:

即当估计是有偏估计时,用MSE来进行比较。

// TODO: 无偏估计这一块不是很明白

极大似然估计

  • 概念

极大似然估计的思想:设总体含有待估参数θ,它可以取很多值,我们要在θ的一切可能取值之中选出一个使样本观测值(已经确定)出现的概率为最大的θ值(记为)作为θ的估计,并称为θ的极大似然估计。极大似然估计常用(Maximum Likelihood Estimation)表示。

直白来讲,极大似然估计就是使得目前观测值出现概率最大的θ值。其基本思想是在给定数据的情况下,通过最大化似然函数来估计概率分布或模型参数。

具体来说:对于给定的观测数据集合,假设这些数据来自于一个未知的概率分布或模型,MLE方法的目标是找到最优的模型参数,使得这个模型产生这些数据的概率最大。换句话说,就是寻找一个参数估计值,使得该参数下的观测数据出现的概率最大。

下面有个例子很好的对其进行解释:

// 当随机变量是独立时,其联合概率为各自概率相乘

下面以连续分布的情况为例,给出极大似然估计的定义:

  • 求极大似然估计的方法

寻求分布中位置参数θ的极大似然估计,首先要写出似然函数即样本的联合分布;其次,要建立一个新的观点,让θ变换,这是同一组样本的观察值出现的概率将随着θ的改变而改变。求θ的极大似然估计,就是求使达到最大的点

1)可以通过求导获得极大似然估计

当似然函数关于参数θ可导时,常常通过求导方法来获得似然函数极大值对应的参数值θ。

为求导方便,常对似然函数取对数,为对数似然函数它与在同一点上达到最大。对θ的每一分量可微时,可通过对θ的每一分量求偏导并令其为0求得极大似然估计称:为似然方程,其中k是θ的维数。

2)从定义出发直接求的极值点

当似然函数的非零区域与未知参数有关时,通常无法通过解似然方程来获得参数的极大似然估计,这时可从定义出发直接求 的极大值点。

  • 极大似然估计的性质

1)极大似然估计的不变原则

2)极大似然估计的渐近正态性

当样本量趋向于无穷大时,极大似然估计的分布接近于正态分布。这个结论是统计学中极为重要的一种性质,它可以用于构造置信区间和假设检验等。

具体来说,假设我们有一个来自某个分布的随机样本,样本量为,用 表示该分布的参数。假设我们想要使用极大似然估计 来估计参数 ,那么当样本量趋向于无穷大时, 的分布会趋向于正态分布,其均值为,方差为 ,其中 是 Fisher 信息矩阵在参数 处的值。

换句话说,如果我们有一个足够大的样本,那么我们可以使用极大似然估计来构造置信区间,置信区间的中心值是极大似然估计,置信区间的宽度则是标准误差的倍数,其中标准误差是

需要注意的是,这个结论只在一定条件下成立,例如样本必须是独立同分布的,并且极大似然估计的方差不能为零。此外,这个结论只是一个渐近结果,也就是说只有当样本量趋向于无穷大时才成立,对于小样本可能并不适用。

  1. 区间估计

点估计虽能给出参数一个明确的数值,但是不能提供估计参数的估计误差大小(精度),点估计主要为许多定性研究提供一定的参考数据,或在对总体参数要求不精确时使用,而在需要用精确总体参数的数据进行决策时则很少使用。

置信区间是用来估计总体参数θ真实值的一个区间,其定义如下:

对于置信区间的理解,可以参考马同学的回答:https://www.zhihu.com/question/26419030?sort=created。对于置信区间,有以下需要强调:

  • 置信区间要求估计量是个常数

  • 置信区间是随机区间,总体的参数是固定的,变的是不同的观测样本计算出的置信区间。比如95%的置信区间,表示在1000次抽样中,计算得到的1000个置信区间,约有950个包含正确的参数。

  • 正态分布的区间估计

在区间估计中,当总体为正态分布时,常见的区间估计场景有以下几种:

  • 方差已知,估计均值

  • 方差未知,估计均值

  • 均值未知,估计方差

总体思路就是根据正态分布的性质转化为标准正态分布,根据分为点求解区间即可。

  • 非正态分布的区间估计

对于非正态分布,可以使用中心极限定理,近似地使用上述结果

中心极限定理:设从任意一个总体中抽取样本量为N的样本,当N充分大时,样本均值的分布近似服从于正态分布。
  1. 贝叶斯估计

统计学中有两大学派:频率学派(又称经典学派)贝叶斯学派,它们的理论与方法都建立在概率论基础上。

以上的统计推断(点估计、区间估计)中,皆用到了两种信息:

(1) 总体信息,即总体分布或总体所属分布族给我们的信息。

(2) 样本信息,即样本提供给我们的信息。这是最“新鲜”的信息,并且越多越好,希望通过样本对总体或总体的某些特征作出较精确的统计推断。没有样本就没有统计学可言。

基于总体、样本这两种信息进行统计推断的统计学就称为经典统计学。然而在我们周围还存在着第三种信息——先验信息,它也可用于统计推断。先验信息,即在抽样之前有关统计问题的一些信息。对先验信息进行加工获得的分布称为先验分布

基于总体、样本、先验这三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来,以提高统计推断的质量。

贝叶斯统计起源于英国学者贝叶斯(Bayes,T.R. 1702(?)-1761)死后发表的一篇论文“论有关机遇问题的求解”,在此文中提出了著名的贝叶斯公式和一种归纳推理的方法, 之后, 被一些统计学家发展成一种系统的统计推断方法。到上世纪30年代已形成贝叶斯学派,到50~60年代已发展成一个有影响的统计学派,其影响还在日益扩大。

贝叶斯学派的最基本的观点是:任一未知量θ都可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布。因为任一未知量都有不确定性,而在表述不确定性的程度时,概率与概率分布是最好的语言。

如今两派的争论焦点已从“未知量是否可看作随机变量”转换为“如何利用各种先验信息合理地确定先验分布”。

两个学派的区别如下:(参考:贝叶斯学派与频率学派有何不同?)

  • 频率派把模型参数看成未知的常量,用极大似然法MLE(一种参数点估计方法)求解参数,往往最后变成最优化问题。这一分支又被称为统计学习。频率派认为概率是事物的固有属性,是一个确定的常量,它就在那里,只是我们暂时不知道而已,要估计出这个确定的概率,可以做重复实验并计算重复实验中事件发生的频率,用频率近似概率(依据是“大数定律”),样本量越大,这个近似就越好。

  • 贝叶斯派把模型参数看成未知的变量(概率分布),用最大化后验概率MAP求解参数。贝叶斯派认为总体的未知参数是一个随机变量,它有自己的分布,把它叫做“先验分布”。贝叶斯学派就是利用先验分布和贝叶斯公式来得到后验分布,然后基于后验分布做进一步的统计推断。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/397916.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IDEA项目中配置Maven镜像源(下载源)

目录前言一、IDEA中Maven的位置二、修改Maven的配置文件2.1 配置文件2.2 修改镜像源三、在IDEA中使配置文件生效四、配置文件和本地仓库迁移前言 在使用IDEA搭建项目的过程中,我们发现框架的jar包下载非常缓慢,这是因为国内访问Maven仓库速度较低&#…

构建GRE隧道打通不同云商的云主机内网

文章目录1. 环境介绍2 GRE隧道搭建2.1 华为云 GRE 隧道安装2.2 阿里云 GRE 隧道安装3. 设置安全组4. 验证GRE隧道4.1 在华为云上 ping 阿里云云主机内网IP4.2 在阿里云上 ping 华为云云主机内网IP5. 总结1. 环境介绍 华为云上有三台云主机,内网 CIDR 是 192.168.0.0…

TensoRT8.4_cuda11.6 sampleOnnxMNIST运行生成

1、版本信息 win10电脑环境: TensorRT:8.4.1.5CUDA: 11.6VS: 2019 环境安装成功后,使用sampleOnnxMNIST测试 2、VS2019环境配置 用vs打开sampleOnnxMNIST项目,位置在 D:\TensorRT-8.4.1.5\samples\sampleOnnxMNIST (1&#xf…

创建SpringBoot工程详细步骤

new新建一个项目选择Spring Initializr, 然后配置一下地址, 可以如下图使用阿里云的,(因为国外的Spring官网可能不稳定) 下面这三个地址(选一个)能用的用上就行 https://start.spring.io(默认) https://start.springboot.io https://start.aliyun.com 然后 然后点击Finish…

HarmonyOS/OpenHarmony应用开发-dataUriUtils的使用

模块导入接口详情 dataUriUtils.getId getId(uri: string): number 获取附加到给定uri的路径组件末尾的ID。 参数: 名称 类型 必填 描述 uri string 是 指示要从中获取ID的uri对象。 dataUriUtils.attachId attachId(uri: string, id: number): string …

上班三年,薪资还赶不上应届程序员的一半奖金?

工资的鸿沟,始于社会分工的出现和细化。打工人行走职场,你是否也经历过:卷也卷不赢,躺也躺不平的45人生!不同打工人分工提升了社会生产的效率,也加速了社会财富的积累,更提高了人们的收入水平。…

Zookeeper特性和节点数据类型详解

什么是ZK? zk,分布式应用协调框架,Apache Hadoop的一个子项目,解决分布式应用中遇到的数据管理问题。 可以理解为存储少量数据基于内存的数据库。两大核心:文件系统存储结构 和 监听通知机制。 文件系统存储结构 文件目录以 / …

Pytorch深度学习与入门实战

Pytorch深度学习入门与实战Pytorch简介Pytorch特点PyTorch安装环境要求PyTorch兼容的Python版本搭建开发环境下载Miniconda![下载miniconda](https://img-blog.csdnimg.cn/adace1a2f7ae476aa883b53203477c92.pnPytorch官网地址GPU版本安装检查显卡驱动依赖库安装机器学习基础与…

【备战面试】TCP的三次握手与四次挥手

本篇总结的是计算机网络知识相关的面试题,后续也会更新其他相关内容 文章目录1、TCP头部结构2、三次握手3、四次挥手4、为什么TCP连接的时候是三次?两次是否可以?5、为什么TCP连接的时候是三次,关闭的时候却是四次?6、…

【工具使用】STM32CubeMX-CRC配置

一、概述 无论是新手还是大佬,基于STM32单片机的开发,使用STM32CubeMX都是可以极大提升开发效率的,并且其界面化的开发,也大大降低了新手对STM32单片机的开发门槛。     本文主要讲述STM32芯片的CRC外设配置及CRC校验的一些基…

【018】筛选数据(模糊筛选)_#VBA

模糊筛选1. 原因2. 参考3. VBA指令3.1 将 * 添加在 C 的两侧即可筛选所有包含 C 的值3.2 将 * 添加在 C 的前面即可筛选所有最后一个字符包含 C 的值3.3 将 * 添加在 C 的后面即可筛选所有第一个字符包含 C 的值1. 原因 此前写筛选方式,都是高级筛选或者按条件筛选…

可移植操作系统接口--POSIX

什么是POSIX POSIX(Portable Operating System Interface,可移植操作系统接口)是一个标准,它定义了操作系统接口的一系列规范。POSIX标准最初由IEEE制定,现在由Open Group维护。 POSIX标准的主要目的是为了保证不同操…

python带你成功复刻热门手机游戏——飞翔的小鸟

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 飞翔的小鸟(游戏英文名:Flappy Bird) 一款由越南独立开发者开发的手机游戏,是之前非常流行的一款手机游戏 小游戏目标:让小鸟穿过管子,不要碰到任何物体…

大数据是什么?发展前景怎么样

关于大数据的解释,比较官方的定义是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说,大数据就是结构化…

CAD崩溃后自动保存的文件在哪里?

CAD崩溃后自动保存的文件在哪里?相信这个问题很多设计师小伙伴在CAD绘图过程中都曾遇到过,这也是CAD常见问题之一。本节内容小编就以浩辰CAD软件为例来给大家介绍一下软件崩溃后CAD自动保存的文件在哪里以及打开方式。 CAD崩溃后自动保存文件位置&#…

GWAS全基因组关联分析工具GAPIT最新版的安装教程与报错解决方案

GWAS工具GAPIT最新版 本篇笔记主要内容是GWAS分析软件GAPIT最新版的安装和使用教程,包括常见的报错以及解决方案,主要出错位置在LDheatmap、stringi、nloptr、lme4等,测试安装的环境是东方天意的ECS云服务器(Linux centos7&#x…

七、延时队列

1、延时队列的概念 队列内部是有序的,最重要的特性就体现在它的延时属性上,延时队列中的元素希望在指定时间到了以后被取出处理 延时队列就是用来存放需要在指定时间被处理的元素的队列 2、延时队列使用的场景 订单在十分钟之内未支付则自动取消 …

SAP Cloud Platform会抛弃ABAP吗

很早之前自己写的文章,重新发布一下。 别担心,该来的总会来,该走的也留不住! - 剧情概要 - SAP Cloud Platform发布已经有一段时间了,自SAP云平台发布以来,很多人担心的一个问题是:在SAP云平…

【测试】HD-G2L-IO评估板测试结果表

1. 测试对象HD-G2L-IOT基于HD-G2L-CORE V2.0工业级核心板设计,双路千兆网口、双路CAN-bus、2路RS-232、2路RS-485、DSI、LCD、4G/5G、WiFi、CSI摄像头接口等,接口丰富,适用于工业现场应用需求,亦方便用户评估核心板及CPU的性能。H…

数据分析师常见问题(1)

1).sql三种排序的区别 2).几种连接方式 3).union和union all的区别 4) .drop和delete的区别 5).有关机器学习random forest 和xgboost的区别 6) .SVM原理 SVM是在特征空间上找到最佳的分离超平面,使得训练集上的正负样…