11.10~11.15置信区间,均值、方差假设检验,正态,t,卡方,F分布,第一第二类错误

news2024/10/7 16:24:23

置信度,置信区间

给定一个置信度,就可以算出一个置信区间。

如果给的置信度越大,那么阿尔法就越小

给的置信度越小,那么α就越大,那么

考虑精确性,希望区间长度尽可能小,所以是取正态的中间的对称位置

置信度越高,则精度越低,反之,精度越高则置信度越低

置信水平描述真实值落在置信区间中的概率

当你要提高置信水平(即真实值落在置信区间中的概率)的时候,相应的将要付出的代价就是拉长置信区间,也就是区间半径的增大。

那么很显然的,如果你想让一个区间保持完美的,100%的可靠度,在已有的条件下,我只能将区间半径拉长到∞。也就是置信区间为R。

那么显然这个参数估计就失去了意义,自然不存在可靠性。

另外的,置信水平和显著性水平是负相关的,并且置信水平与显著性水平的和为1

错误理解:上图浅色的虚的竖直线代表样本参数真值,横的两端有端点的代表95%置信度的置信区间,100条竖直线里有95条左右落入这个区间内。

这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。

样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%

其中大虚线表示总体参数真值,是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。

置信区间是变的,是不固定的,课本上让求的那个置信区间,只是某种条件下的置信区间(可能是区间长度最短的置信区间),但实际上只要这个区间上的点占总点的置信度,就是一个置信区间

上分位点

就是右侧占α,类似相同的概念就是分布函数,只不过分布函数是左侧的总体的

对于对称的分布,正态,t分布,1-α和α是对称的,即分布在对称轴左右

对于不对称的分布,F分布,是一个倒数关系

对于卡方分布,相对关系很复杂,要查两次表

上分位点出来的是x轴上的一个值,由于是右侧占α,所以α越小,这个值越大,反之则越小

即右侧占的越多,那么分位点越靠前,右侧占的越少,分位点越靠后。

正态分布用分布函数描述,即左侧占比;t分布,卡方分布,F分布都是右侧占比。t,卡方

正态分布也可以用分位点去描述,为u。

不过分位点出来的是坐标轴上的数,分布函数出来的是左侧占1的比例大小,相当于一个反函数的关系。

假设检验

假设方式

假设方式有是不是,与偏大还是偏小,即单尾检测与双尾检测

单尾检测就是判断是否高于或是否低于,

对于均值的单尾检测

如果考虑样本低于总体,那么原假设就是大于等于总体,新假设H1是低于总体

因为左加右减,所以当分布发生变化,均值越大,减的数越大,左加右减,相当于在原基础上又减了数,所以就越会在标准分布中向右偏;均值越小,减的数越小,在原来基础上加了数,就会越往左偏。

也就是标准分布中,也能体现出一定的原来均值的位置,先根据相应的均值定义出一个标准的分布,然后向右偏的,都是均值偏大的样本数据;向左偏的,都是均值偏小的样本数据。所以极左极右发生时,就意味着当前定义的均值所产生的标准分布失去了参考意义,即数据分布发生了变化,在单尾检测中,如果偏小,就是分布在左侧的1-α分位点;如果偏大,就是分布在右侧的α分位点

对于双尾检测

就不考虑到底是偏大还是偏小,只是考虑到底还是不是原分布,在单尾检测中,只检测一端,所以允许分布偏离原分布,向相反方向偏离都可以,但就是不允许向指定的检测方向偏移,所以对某个方向的检测更加严格;

而双尾检测就不关心这个,它只关心到底还是不是原分布,所以极左与极右都不允许发生,相应的显著性水平也就不止分散在一端,而是两端各分一半,这也就意味着相比单尾检测的一端不那么严格,因为单尾检测是全部的α都分布在一侧,而这里只分布着一半。、

所以双尾检测的重点就放在了,到底”是不是“的问题上

即两种假设方式分别为

即单尾检验用不等式,双尾检验用等式

单变量检验

单变量检测中,重点在于均值与方差是否等于某个值,对于均值而言,意义比较明显,就是和以往相比检测是否合格,是否认为是不是某个值;对于方差的单变量检验,意义不那么明显,因为方差难以直观的用数字去感知与衡量,基于比较才有直观的含义,即波动是偏大还是偏小,而由于是单变量,所以比较的值一般就是基于之前的历史值或经验值。

均值检验采用正态与t,方差采用卡方。

对均值进行检验,就是正态分布;根据方差是否已知,采用不同的分布,但都是正态型的。

如果方差已知,取几个样就有多少复杂度;如果未知,就要用计算出的方差,自由度就要失去一个,退化为t分布

对方差进行检验,就是要卡方分布;

如果均值已知,那就是取样个数的自由度;不然,就要失去一个自由度。

在假设过程中,所使用的方差都是假设的那个值。不过就是均值已知时就用均值,均值未知时就用计算出的均方差;

用了均方差,就会丢一个自由度。

在均值检验中,均方差用于弥补未知方差的信息;在方差检验中,均方差用于弥补未知均值的信息。方式都是乘(n-1)后,分子分母消除掉的标准差,凑成的那个自由度为n-1的卡方分布实现。

在均值检验中,用于形成n-1自由度的卡方分布,从而形成n-1的t分布,进行检验

在方差检验中,就是直接形成n-1自由度的卡方分布,进行检验

在均方差中,用的就不是总体分布的均值,而是样本的均值,所以自由度才会-1,所以在方差均值未知时,就可以规避掉未知的总体均值信息;在均值检验中,方差未知时,如果方差已知,直接构造标准正态就可以进行检验,因为检验均值,相对于假设均值已知,总体方差又已知,所以可以直接求解;如果方差未知,就不能直接转为标准正态分布。而t分布,由于是标准正态分布除以卡方分布,所以在方差未知时可以规避掉未知的方差信息,从而构造出最大可能利用已知信息的t分布

方差检验,就是假设方差是已知的;均值检验,就是假设均值是已知的

对于标准正态分布,就是总体的方差,均值都已知。

对于T分布,可以在总体方差未知时发挥作用

对于卡方分布,若为n自由度,则总体的方差,均值都已知

若为n-1自由度,那么总体均值未知,通过除以已知的方差,将均方差转化为自由度为n-1的卡方分布

双变量

双变量的检测,重点在于检测两个变量的均值是不是相等,方差是不是相等,重点在于是否相等上,而不是是多少的问题上

所以在假设中,假设都是等于还是不等于。所以在均值检测当中,要构造第一个的均值减去第二个的均值的统计量;在方差检验中,是构造作比的F分布

均值检验中,

用正态分布与t分布

在这一部分中,有一特殊情况就是n1=n2,即两个体系中取的样本数量相等,那么就可以化为配对,一组一组,即合并成新的统计量,如果方差已知,就是正态,否则,就用t统计量。即所谓配对问题。

一般是取样数量不相等,即一个取得多,一个取得少,那就是整成各自的均值与方差进行计算

方差检验中,

用F分布

均值已知时,那么两个变量各自可以构造出各自自由度的卡方分布,相比,就是F(m,n)的F分布

均值未知时,就需要通过均方差,构造出各自自由度-1的卡方分布,相比,即m-1,n-1的F分布

F分布只能用来检测两个变量的方差是不是相等,即数据波动程度是否一致,而判断不出来方差的具体数值。在F分布中,两个卡方分布相比,都把方差消掉了,而这个消掉过程,就是基于他们方差相等,如果不相等就不能消掉,所以如果不符合F分布的大概率事件,就不能认为他们方差相等。

两类错误

显著性水平的含义就是原假设成立时,放弃原假设,取H1的概率,即第一类错误,弃真错误的概率;

另一种错误是说,原假设错误,但是选择了原假设,即取为假设。

错误就是错误,对于每种具体情况而言,第一类错误与第二类错误所标注的实际意义的情况不会同时发生,但当”弃真“时,就意味着”取伪“

他们的本质区别就在于,原假设是不是正确的假设,如果原假设正确,那么判断错误时,就是放弃原假设H0,即弃真错误;如果原假设错误,那么判断错误时,就是选择原假设,即取伪错误

所以,第一类第二类错误只是对同一种错误的不同描述方式,他们的概率判断没有意义,因为不可能针对同一种假设同时发生,因为每次只会发生一种错误,在唯一确定原假设的情况下,第一第二类错误并不是对错误整体集合的一个划分,而是对错误集合的命名方式,依据原假设的不同而发生变化。

第一类错误的概率计算,就是原假设为真,但是弃真,即统计量最终落在了拒绝域里;

第二类错误的概率计算,就是原假设为假,但是取伪,即统计量最终没落在拒绝域里。

此外,需要注意,标准的分布是基于正确的假设上的,错误的假设不被认为构成标准分布,即对应的统计量,实际上在错误的假设上并不服从标准分布,而只有在正确的参数下才是标准的分布

故,在第一类错误,弃真中,标准的定义是H0,即原假设;在第二类错误,取伪中,标准的定义是备选H1,即备选假设,原假设不被认为构成标准分布。

通过两类错误增大样本容量

一般思路是控制第一类错误的概率,依据第二类错误的概率,来确定样本容量的要求

即在原假设的基础上,可以知道某个原始量的分布范围,在接受的情况下,即接受原假设会对应某个量的一个区间,此时假设原假设是不对的,再假设实际参数是某个数,希望第二类错误的概率不要超过某个期望的值,也就是说,此时的分布与分布公式就变化了,但依据原来的错误假设,已经算出来了一个分界点,即取伪区间,那么在这个正确的分布下,其在标准分布里,占据的比例不应该超过所期望的值,所以就对应可求出所需的样本量的要求

因为取伪,就是因为原假设是错误的,但是就是发生了,取了它

实际上不是的话,那么它发生的概率应该是小的,第二类错误就是所谓瞎猫碰上死耗子。

?为什么是要在原假设里求出接受域的范围,而不是在正确的假设里?

两个参数,要先取伪,首先是因为不知道它是“伪”,其次是要取它,即在不知情的情况下,不发生“第一类错误”,这里就用到了第一类错误的参数,α,要让统计量落在它所界定的接受域内,才会接受原假设,才会取伪;第二个参数,发生的概率,就是在一种极端假设上,对于原假设的怀疑,即如果原假设不是真的,又有多大把握避免这一错误

检测方式

在置信区间中,一般是左端占α/2,右端占α/2,中间占1-α。即无论那种分布,样本总是围绕在均值的左右,极左与极右都是极端的小概率事件。假设检验就是为了检测这样的小概率事件是否发生。

显著性水平越大,左右不被允许的区间越大,也就是弃真错误率越大,即原假设正确时,判断错误的概率,也就是对样本的分布更加苛刻,越要求它紧紧分布在均值两侧;反之,则越宽松。

步骤就是先依据已有的信息,选定合适的统计量与分布方式,那么就可以化为相应标准统计量的分布,注意,是标准统计量的分布,这个统计量综合了一切的信息(并非单一样本,某个样本的信息,而是样本总体的一个信息,所以不存在多个这样的统计量,每次取样都只会综合出一个这样的统计量),应该满足相应的条件,即最终应该落在标准分布均值左右的两侧,即置信区间内。

而依据显著性水平,就可以得到左右两侧小概率事件的分布的概率,也可以说是分界线,也就是要求综合了一切信息的统计量应当在拒绝域之外,置信区间内,这要才符合大概率,大数定律,否则就是小概率事件的发生(即在当下这个假设下,由多次取样出的一个样本总体情况在当下假设中出现了分布异常,即发生概率很小的小概率事件)

显著性水平用来确定拒绝域;

已知条件用来确定统计量是什么,选取什么样的统计量进行检验;

具体数值与查表用来确定选定的统计量到底是多少;

最后比较,判断到底是接受还是拒绝原假设

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1213787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【芯片设计- RTL 数字逻辑设计入门 5 -- 芯片产业 - 常见流程和术语】

文章目录 芯片产业 - 常见流程和术语角色晶圆晶圆等级工艺和阶段流片的过程和成本三大EDA厂商主流IP供应商 IC专业术语盘点(A—G)Flip-Flop 是什么?Flip-Flop 与 D触发器 芯片产业 - 常见流程和术语 角色 Foundry:在集成电路领域是…

istio安装文档

1、重装命令 istioctl manifest generate --set profiledemo | kubectl delete --ignore-not-foundtrue -f - 2、下载 参考:02、istio部署到k8s中 - 简书 (jianshu.com) 参考 Istio / 入门 curl -L https://istio.io/downloadIstio | ISTIO_VERSION1.20.0 TAR…

深度学习LSTM新冠数据预测 计算机竞赛

文章目录 0 前言1 课题简介2 预测算法2.1 Logistic回归模型2.2 基于动力学SEIR模型改进的SEITR模型2.3 LSTM神经网络模型 3 预测效果3.1 Logistic回归模型3.2 SEITR模型3.3 LSTM神经网络模型 4 结论5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 …

2023版Idea创建JavaWeb时,右键new没有Servlet快捷键选项

问题:右键时,没有创建servlet的快捷键,如下图: 解决方法: 1.打开idea,点击File>settings(设置),进入settings页面,如下 从上图中的Files选项中没看到有servlet选项,…

阿里云腾讯云大比拼!阿里云99,腾讯云88!

首先,我们来看一下阿里云和腾讯云在云服务器价格上的差异。根据官方公布的信息,阿里云在双11大促活动中推出了全年最低价的云服务器,最低价格为87元1年。而腾讯云的云服务器价格稍高,最低为88元1年。虽然价格上的差距很小&#xf…

opencv(1):创建和显示窗口, 读取保存图片

下载源码,方便查看 API 信息。 快速在源码文件夹中搜索相关 api. grep“namedWindow(*-Rn// 限定 .h 文件 grep“namedWindow(*-Rn|grep "\.h" vscode 语法检测有问题 一直有波浪线 打开 vscode, setting 界面,搜索 python 在 setting.json…

系列二、类装载器ClassLoader

一、能干嘛 1.1、方法区 存放类的描述信息的地方。 1.2、JVM中的类装载器 1.3、获取ClassLoader的方式 /*** Author : 一叶浮萍归大海* Date: 2023/11/16 0:08* Description: 获取类的加载器的方式*/ public class ClassLoaderMainApp {public static void main(String[] arg…

LeetCode——OJ题之二叉树【上】

✏️✏️✏️今天给大家分享几道二叉树OJ题! 😛😛😛希望我的文章能对你有所帮助,有不足的地方还请各位看官多多指教,大家一起学习交流! 动动你们发财的小手,点点关注点点赞&#xff…

string的简单操作

目录 string的接口说明 构造 constructor operator 迭代器操作 begin( )和end( ) rbegin( ) 和 rend( ) 范围for和迭代器的关系 范围for 迭代器 容量 size lengtn max_size resize capacity reserve clear empty string类的元素访问 operator[ ] at fro…

【Shell脚本12】Shell 输入/输出重定向

Shell 输入/输出重定向 大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回​​到您的终端。一个命令通常从一个叫标准输入的地方读取输入,默认情况下,这恰好是你的终端。同样,一个命令通常将其输出写入到标准输出,默…

unity3D scrollview嵌套不能滑动的问题及其解决办法

unity3D scrollview嵌套不能滑动的问题 问题来源: 现在有这么一个需求,有一个页面,希望外面是一个水平方向滑动的scrollView A,A的子对象是一种能在垂直方向滑动的scrollview,此时,如果不做特殊处理&#…

MySQL中全文索引和普通索引的区别

MySQL中的全文索引(Full-Text Index)和普通索引(比如B-Tree索引)是为了提高查询效率而设计的,但它们适用于不同的场景和查询类型。 普通索引(如B-Tree索引) 适用场景:普通索引适用于…

cleer的耳机怎么样?南卡和cleer哪个好?两款开放式耳机深度横评对比

随着开放式耳机的发展,成为许多用户的首选。开放式耳机因其更自然的音质表现和佩戴更舒适体验而备受欢迎。然而,市面上开放式耳机品牌和型号繁多,如何选择一款适合自己的耳机成为了许多用户的难题。 本期文章将为大家推荐两款市面上优秀的开…

【6】Spring Boot 3 集成组件:knift4j+springdoc+swagger3

目录 【6】Spring Boot 3 集成组件:knift4jspringdocswagger3OpenApi规范SpringFox Swagger3SpringFox工具(不推荐) Springdoc(推荐)从SpringFox迁移引入依赖配置jAVA Config 配置扩展配置:spring securit…

day26_css

今日内容 零、 复习昨日 一、CSS 零、 复习昨日 HTML - 页面基本骨架结构,内容展现 CSS - 美化页面,布局 JS - 动起来 一 、引言 1.1CSS概念 ​ 层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)…

第十九章总结

Java绘图类 Graphics 类 Grapics 类是所有图形上下文的抽象基类,它允许应用程序在组件以及闭屏图像上进行绘制。Graphics 类封装了Java 支持的基本绘图操作所需的状态信息,主要包括颜色、字体、画笔、文本、图像等。 Graphics 类提供了绘图常用的…

Linux系统编程——进程中vfork函数

函数原型 pid_t vfork(void);//pid_t是无符号整型 所需头文件 #include <sys/types.h> #include <unistd.h> 功能 vfork() 函数和 fork() 函数一样都是在已有的进程中创建一个新的进程&#xff0c;但它们创建的子进程是有区别的。 返回值 成功子进程中返回 …

nginx基本配置-基于nuc980开发板的笔记

一、介绍 前面的文章<nginx交叉编译移植-基于nuc980开发板的笔记>,介绍了如何移植nginx到开发板&#xff0c;打开的网页面是默认的网页。下面介绍如何输入网址变为指定的网页。 二、配置 ①将编写的网页&#xff0c;放到html文件夹下&#xff0c;如下图&#xff1a; ②打…

双点重发布路由策略实验

任务&IP分配如下&#xff1a; 双点重发布实验 第一步&#xff1a;配置IP地址&环回地址 以R1为例&#xff0c;R2、R3、R4同理 interface GigabitEthernet 0/0/0 ip address 12.0.0.1 24 interface GigabitEthernet 0/0/1 ip address 13.0.0.1 24 interface LookBack …

docker 安装xxl-job

1.拉取镜像 docker pull xuxueli/xxl-job-admin:2.4.0 2.docker镜像创建并运行 docker run -e PARAMS"--spring.datasource.urljdbc:mysql://xxxxx:3306/xxl_job?useUnicodetrue&characterEncodingUTF-8&autoReconnecttrue&serverTimezoneAsia/Shanghai&…