数据分析面试---假设检验知识点

news2024/11/15 19:31:01

文章目录

  • 一、假设检验是干啥的
  • 二、假设检验基本原理/思想
  • 三、假设检验步骤
  • 显著性检验(significance test)
    • 统计显著性和置信度
    • 补充:第一类错误和第二类错误
    • p值是啥

链接1

  • 数理统计中的统计推断问题主要有两大类:参数估计问题和假设检验问题
  • 参数估计问题
    • 所指参数一般为分布中所含的未知参数、未知参数的函数、分布中的各种特征数
    • 参数估计问题就是根据样本对以上各种未知参数做出估计
      • 一般提法:设有一个总体 X X X,总体的分布函数为 F ( X ; θ ) F(X;\theta) F(X;θ),其中 θ \theta θ是未知参数。
      • X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn是总体 X X X的一个样本
      • 现根据该样本对参数 θ \theta θ作出估计,或估计 θ \theta θ的某个已知函数 g ( θ ) g(\theta) g(θ)
  • 假设检验问题

一、假设检验是干啥的

  • 假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法
  • 显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式(文章最后)
    • 其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等

二、假设检验基本原理/思想

  • 核心是小概率原理和反证法
  • 小概率思想:小概率事件在一次实验中基本上不会发生
  • 对于你想证明的一个观点,若不能直接证明,可以先假设这个观点是错的,再通过推理发现矛盾,反证原本结论是正确的
  • 具体到假设检验中,是先提出零假设 H 0 H_0 H0和备择假设 H 1 H_1 H1(你想证明的),通过统计方法计算样本统计量,如果样本观察值导致了小概率事件的发生,就应拒绝原假设
  • 概率小到什么程度才能算作“小概率事件”?
    • 显然,“小概率事件”的概率越小,否定原假设H0就越有说服力,常记这个概率值为α(0<α<1),称为检验的显著性水平。对于不同的问题,检验的显著性水平α不一定相同,一般认为,事件发生的概率小于0.1、0.05或0.01等,即“小概率事件”

三、假设检验步骤

1.提出零假设与备择假设

  • 分析问题,确定问题,提出假设
  • 假设检验分为双侧检验和单侧检验。简单分辨就是,双侧检验是比较不相等,单侧检验是比大或比小
    • 双侧检验: H 0 : μ = μ 0 , H 1 : μ ≠ μ 0 H_0:\mu = \mu_0,H_1:\mu\ne\mu_0 H0:μ=μ0,H1:μ=μ0
    • 如果检验的目的是检验抽样的样本统计量与假设参数的差是否过大(无论正方向,还是负方向),我们都会把风险分摊到左右两侧。比如显著性水平为5%,则概率曲线的左右两侧各占2.5%,也就是95%的置信区间。
      • 比如:小学生中,男女生的身高是否存在性别差异
    • 单侧检验: H 0 : μ = μ 0 , H 1 : μ > μ 0 H_0:\mu = \mu_0,H_1:\mu>\mu_0 H0:μ=μ0,H1:μ>μ0 H 0 : μ ≥ μ 0 , H 1 : μ < μ 0 H_0:\mu \ge \mu_0,H_1:\mu<\mu_0 H0:μμ0,H1:μ<μ0
    • 如果检验的目的只是注重验证是否偏高,或者偏低,也就是说只注重验证单一方向,我们就检验单侧。比如显著性水平为5%,概率曲线只需要关注某一侧占5%即可,即90%的置信区间。
      • 比如:小学生中,男生的平均身高是否大于女生

2.给定显著性水平 α \alpha α和样本容量 n n n
3.根据问题的特点,提出拒绝域的形式,确定检验统计量
4.由 P ( 拒绝 H 0 ∣ H 0 为真 ) = α P(拒绝H_0|H_0为真)=\alpha P(拒绝H0H0为真)=α,求出拒绝域的具体表达式
5.对总体进行抽样,根据样本值是否落在拒绝域内,做出接受/拒绝 H 0 H_0 H0的判断
在这里插入图片描述

显著性检验(significance test)

统计显著性和置信度

  • 任何理论(或认识)都没法保证其关于现实的推测是100%正确的,这归因于理论永远都只是对现实世界真相的大致概括和特征提取。
  • 理论只能无限趋近于真实,但无法达到真实。人类用的仅仅是越来越接近真相的理论而已。
  • 所以对于任何说法,都有一个可信度问题。
  • 而通过对于现实的重复测试,我们将能够了解某说法究竟有多可信,不同的说法之间是存在着可信度的差异的。
  • 这就像是盲人摸象之后,每个盲人说出的有关大象外形的可信度是有差别的,而且只要让盲人们多摸几次,他们对大象长相的描述会越来越接近真实。
  • 了解不同观点的可信度,是统计的目的之一。
  • 统计中所谓的’显著性’就是可信度的一种指标。
  • 具有统计显著性的结果反映的是经过严格的测试得到的结果达到了一定可信度一专业术语叫’置信度’(又叫“置信水平”),它表明我们在多大程度上相信结论不会因随机因素而发生偏差。
  • 更具体地说,置信度是我们所持理论预测出来的结果在指定区间出现的可能性。
  • 显著性跟置信度的内涵异曲同工,但它们的表述方法刚好相反,且在应用中描述方式略有差异:
    • 对于置信度一般我们会说’…实验结果落在某个置信区间的可能性可以达到多高…'(这个可能性越大置信度就越高)
    • 而对于显著性我们会说’.…我们的理论假设被否定的可能性小于多少,我们的假设就可以被称为显著或者极显著…'(这个可能性越小显著性越高)
    • 显著性水平就是变量落在置信区间以外的可能性
    • 也就是说,置信度通常是正面描述(拒伪的),而目通常需要与一个置信区间关联起来。而显著性则是反面描述(拒真的),而且通常需要与一个预设的判断门槛值联系起来。
    • 如果显著性水平是 α \alpha α,那么置信度就是 1 − α 1-\alpha 1α
    • 在这里插入图片描述

补充:第一类错误和第二类错误

  • 第一类错误:原假设为真,却惨遭拒绝,记这一事件发生的概率为 α \alpha α
  • 第二类错误:原假设为假,确被你接受了,这一事件发生概率为 β \beta β

p值是啥

  • 说了那么多,所以p值是啥呢

  • p值是假设 H 0 H_0 H0成立的概率

  • 一般,想要证明什么,零假设就要设它的反面,基于反证法证明本来想证明的东西

  • 只要证明 H 0 H_0 H0发生是一个小概率事件:若 p < α p<\alpha p<α,则这个测试具有统计学显著性

  • 如果置信区间不包含零假设的值,则检验结果具有统计显著性

  • 一般选取的 α = 0.05 \alpha=0.05 α=0.05

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/350777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[datawhale202302]CS224W图机器学习:图的基本表示及特征工程

结论速递 本章涉及了图基本表示及传统的特征工程。 图由节点和连接组成&#xff0c;节点和连接上都可以有不同的属性。根据属性的特点&#xff0c;分为几类不同的图&#xff0c;其中异质图和二分图是比较重要的特殊图。 图可以用邻接矩阵进行结构化表示&#xff0c;如果图过于…

单元测试的优势

单元测试提供了许多好处&#xff0c;包括及早发现软件错误、促进变化、简化集成、提供文档来源以及许多其他优点&#xff0c;接下来将对其进行详细介绍。 1、使流程更灵活 单元测试的主要好处之一是它使编码过程更加灵活&#xff0c;更遵循敏捷开发方法论。 当向软件中添加越来…

如何加入new bing候补名单

如何加入new bing候补名单 我们都知道现在最新版edges中已经提示我们可以加入new bing候补名单&#xff0c;但国内环境下无法正常加入new bing候补名单&#xff0c;这篇文章讲告诉你如何绕过限制加入new bing候补名单 下载配置 HeaderEditor 插件 下载地址microsoftedge.mic…

XDSpy APT组织近期针对俄罗斯国防部的攻击活动分析

一 概述 XDSpy是ESET于2020年首次披露的APT组织&#xff0c;该组织最早活跃于2011年&#xff0c;主要针对东欧和塞尔维亚地区的政府、军队、外交部及私人公司进行窃密活动。2020年9月&#xff0c;该组织在攻击活动中使用Covid-19主题诱饵下发恶意Windows脚本文件&#xff08;W…

高通平台开发系列讲解(Sensor篇)IAM20680驱动程序的使用

文章目录 一、相关编译宏二、设备树配置三、打开iio自动挂载脚本四、模块加载验证沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇文章将介绍 IAM20680 驱动程序。 一、相关编译宏 目录:arch/arm/configs CONFIG_IIO_BUFFER=y CONFIG_IIO_KFIFO_BUF=y CONFIG_II…

Highcharts.Chart

Highcharts 是一个使用javascript 脚本来生成图表的工具&#xff0c;和jfreechart 作用类似&#xff0c;都用来生成各种图表&#xff0c;并支持图片的导出和打印。 从官网 www.highcharts.com 上下载的压缩表中的example中有各种图表的例子。 要编写生成图表的例子建议从 文…

生成小分子力场TOP

生成小分子力场TOP ATB网站 生成基于Amber力场适配gromacs格式TOP文件&#xff0c; 对于使用GaussView 计算resp电荷可以参考&#xff1a; https://blog.csdn.net/weixin_42486623/article/details/129055384 下面我们使用上面是生成的mol2文件来生成基于Amber的力场&#x…

Linux网络编程 | 彻底搞懂零拷贝(zero-copy)技术

传统文件传输的问题 在网络编程中&#xff0c;如果我们想要提供文件传输的功能&#xff0c;最简单的方法就是用read将数据从磁盘上的文件中读取出来&#xff0c;再将其用write写入到socket中&#xff0c;通过网络协议发送给客户端。 ssize_t read(int fd, void *buf, size_t …

JVM05 方法区

Person&#xff1a;存放在元空间&#xff0c;也可以说方法区 person&#xff1a;存放在Java栈的局部变量表中 new Person()&#xff1a;存放在Java堆中 1.方法区的理解 方法区主要存放的是 Class&#xff0c;而堆中主要存放的是 实例化的对象 方法区&#xff08;Method Area…

ubuntu清理挖矿病毒

0 序言 我之前搭建的hadoop用于测试&#xff0c;直接使用了8088和9870端口&#xff0c;没有放入docker&#xff0c;从而没有端口映射。于是&#xff0c;就被不法之徒盯上了&#xff0c;hadoop被提交了很多job&#xff0c;使得系统被感染了挖矿病毒&#xff0c;在前几天阿里云站…

企业实施了IM移动平台后,可以在上面做什么?

企业实施了IM移动平台后&#xff0c;可以有很多服务场景&#xff0c;其中员工服务平台是一个很好的场景组合。企业固然是以赢利为目的的组织&#xff0c;然而&#xff0c;在一个企业中同样需要有人文关怀的氛围。这种人文关怀&#xff0c;说到底&#xff0c;就是一种以员工为本…

阿里巴巴主流数据库连接池Druid入门

一.数据库连接池的必要性 (一).传统数据库连接模式的的步骤 1.在主程序中创建连接 2.进行sql操作 3.关闭数据库连接 &#xff08;二&#xff09;.传统数据库连接模式存在的问题 1.浪费时间&#xff1a;每次连接时都要验证登录和将conn加载到内存&#xff0c; 2.不能大规…

使用ThreadLocal实现当前登录信息的存取

有志者&#xff0c;事竟成 文章持续更新&#xff0c;可以关注【小奇JAVA面试】第一时间阅读&#xff0c;回复【资料】获取福利&#xff0c;回复【项目】获取项目源码&#xff0c;回复【简历模板】获取简历模板&#xff0c;回复【学习路线图】获取学习路线图。 文章目录一、使用…

【多线程与高并发】- 线程基础与状态

线程基础与状态 &#x1f604;生命不息&#xff0c;写作不止 &#x1f525; 继续踏上学习之路&#xff0c;学之分享笔记 &#x1f44a; 总有一天我也能像各位大佬一样 &#x1f3c6; 一个有梦有戏的人 怒放吧德德 &#x1f31d;分享学习心得&#xff0c;欢迎指正&#xff0c;大…

漏洞深度分析|CVE-2023-25141 sling-org-apache-sling-jcr-base存在JNDI注入漏洞

项目介绍 Apache Sling提供对可插入资源提供程序的支持。虽然这允许将自定义数据提供程序非常灵活和高效地集成到Sling中&#xff0c;但这种集成是在Sling的资源 API 级别上完成的。可能依赖于能够将资源适配到JCR节点并继续使用JCR API的遗留代码将不适用于此类资源提供者。 …

微信小程序自动化测试最佳实践(附 Python 源码)

目录&#xff1a;导读 小程序运行环境 微信小程序技术架构 使用 Chrome 调试小程序 小程序的性能测试 微信小程序的自动化测试​编辑 源码-微信小程序自动化测试 Python 版代码示例 小程序自动化测试需要跨过的几个坎 写在最后 随着微信小程序的功能和生态日益完善&…

“一号文件”聚焦三农,VR全景助农发展数字化

一号文件为何如此聚焦三农&#xff1f;因为三农是拼经济的基础&#xff0c;也是筑牢底盘的基本保证。现如今&#xff0c;农业基础还不稳固&#xff0c;而且城乡区域发展和居民收入差距依旧较大&#xff0c;为了解决城乡发展不平衡、农村发展不充分等矛盾&#xff0c;发展数字化…

Fuzz概述

文章目录AFL一些概念插桩与覆盖率边和块覆盖率afl自实现劫持汇编器clang内置覆盖率反馈与引导变异遗传算法fork server机制AFL调试准备AFL一些概念 插桩与覆盖率 边和块 首先&#xff0c;要明白边和块的定义 正方形的就是块&#xff0c;箭头表示边&#xff0c;边表示程序执行…

java有关类的初始化的分析

什么是类&#xff1f; 类是具有相同状态和相同行为的一组对象的集合 什么是对象&#xff1f; 万事万物皆为对象&#xff0c;可以理解为具体的个体就是对象 什么是面向对象的编程&#xff1f; 就是只在乎结果而不在乎过程&#xff0c;怎么理解这句话&#xff1f;举个例子&#x…

彻底废了,去干了两年外包...

先说一下自己的情况。大专生&#xff0c;17年通过校招进入湖南某软件公司&#xff0c;干了接近2年的点点点&#xff0c;今年年上旬&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落&#xff01;而我已经在一个企业干了五年的功能测试…