【统计学概念】初学者指南:了解置信区间

news2025/1/31 11:20:03

一、说明

        什么是置信区间?如何将概率转化成信心度?信心度如何去工作?这些初步的统计概念需要明晰,然后才能应用统计模型,然后是贝叶斯推理,我们将逐步深入这些概念。

二、总体与样本个体统计 

        总体是研究人员想要研究或得出结论的整个群体或一组个人、物体或事件。它可以是人,动物,植物,甚至是无生命的物体,具体取决于研究的背景。总体通常表示完整的可能数据点或观测值集。样本:

        样本是选择进行研究的总体子集。这是一个较小的群体,旨在代表较大的人口。研究人员从样本中收集数据,并用它来推断整个人口。由于从人口的每个成员收集数据通常是不切实际或不可能的,因此样本被用作收集信息的有效且具有成本效益的方法。

2.1 参数与估计

        参数:参数是描述总体特征的数值。参数通常使用希腊字母表示,例如μ (mu) 表示总体均值,σ (sigma) 表示总体标准差。由于通常很难或不可能从整个总体中获取数据,因此参数通常是未知的,必须根据可用的样本数据进行估计。

        统计量:统计量是描述样本特征的数值,样本是总体的子集。通过使用从代表性样本计算的统计数据,研究人员可以推断出未知的总体相应参数。常见的统计量包括样本均值(用 表示为 ,发音为“x-bar”)、样本中位数和样本标准差(用 s 表示)。

2.2 推论统计

        推论统计是统计学的一个分支,专注于根据从该总体中获取的数据样本对更大的人口进行预测、估计或概括。它涉及使用概率论通过分析较小的子集或样本来推断并得出有关总体特征的结论。推论统计背后的关键思想是,从人口的每个成员收集数据通常是不切实际或不可能的,因此我们使用具有代表性的样本来推断整个群体。推论统计技术包括假设检验、置信区间和回归分析等。这些方法可帮助研究人员回答以下问题:

        a。两组之间有显著差异吗?

        b.我们可以根据其他变量的值预测变量的结果吗?

        c. 两个或多个变量之间的关系是什么?

        推论统计广泛应用于经济学、社会科学、医学和自然科学等各个领域,以根据有限的数据做出明智的决策和指导政策。

2.3 点估计

点估计值是用于根据样本数据估计总体的未知参数的单个值。例如,如果要估计特定学校中所有学生的平均身高,则可以随机抽取 100 名学生并计算该样本的平均身高。计算出的样本平均身高是学校所有学生平均身高的点估计值。

假设样本中 100 名学生的平均身高为 5 英尺 7 英寸。这是对学校所有学生平均身高的点估计。但是,请务必注意,此估计值会受到采样误差的影响,这意味着它可能与真实总体参数不完全相同。

要提高估计值的准确性,您可以增加样本数量或使用更具代表性的样本。您还可以计算一个值范围(称为置信区间),其中包括具有特定置信度的真实总体参数。

三、置信区间

置信区间是根据样本数据计算的值范围,可能包含具有一定置信度的真实总体参数。这是一种估计点估计精度并量化估计周围不确定性的方法。

例如,假设您要估计某个国家/地区所有男性成年人的平均体重。您随机抽取 100 名男性成年人,并计算出他们的平均体重为 180 磅。但是,由于随机抽样变化,真实总体参数可能略高于或低于此估计值。

要计算总体平均权重的 95% 置信区间,应使用考虑样本数量、样本均值和样本标准差的公式。生成的区间将是真实总体参数可能位于 95% 置信度范围内的估计值。

95%置信区间意味着,如果我们用不同的样本多次重复这项研究,95%的结果区间将包含真实的总体参数。

例如,总体平均权重的 95% 置信区间可以计算为 175 到 185 磅,这意味着我们对真实总体平均权重介于这两个值之间的置信度为 95%。

置信区间在统计学中广泛用于估计点估计的精度并推断总体参数

四、置信水平

置信水平是计算的置信区间包含真实总体参数的确定性或概率。它通常表示为百分比或十进制值。

例如,95% 的置信水平意味着如果我们多次重复采样和估计过程,则生成的置信区间的 95% 将包含真实的总体参数。

换句话说,较高的置信水平意味着计算的置信区间包含真实总体参数的确定性更高。但是,增加置信水平也会增加区间的宽度,从而降低估计值的精度。

通常,统计推断中最常用的置信水平是 90%、95% 和 99%。置信水平的选择取决于人们愿意接受的错误推断的风险水平。置信水平越高,确定性越高,但需要更大的样本量,并导致更宽的置信区间

五、置信区间=点估计裕度

5.1 置信区间(已知西格玛)也称为 Z 过程。

当总体标准差 (sigma) 已知时,可以使用以下公式计算总体均值的置信区间:

CI=样本平均误差幅度

CI = x̄ ± Zα/2 * σ/√n

哪里:

  • CI 是总体均值的置信区间
  • x̄ 是样本均值。
  • Zα/2 是对应于所需置信水平的标准正态分布的临界值(例如,1% 置信水平为 96.95)
  • 总体标准差σ
  • n 是样本数量

5.2 例如

假设您要估计已知标准差为 10,000 美元的人口的平均收入。您随机抽取 50 人,并计算出他们的平均收入为 60,000 美元。使用 95% 置信水平时,临界值 Zα/2 为 1.96。代入这些值,总体平均收入的置信区间为:

CI = 60,000 ± 1.96 * 10,000/√50 = 60,000 ± 1,385.6 = (58,614.4, 61,385.6)

因此,根据此样本,我们 95% 的置信度,真实人口平均收入在 58,614.4 美元到 61,385.6 美元之间。

请注意,此公式假定样本是从正态分布或足够大的样本数量 (n≥30) 中随机选择的,没有强烈的偏度或异常值。

六、假设

随机抽样:必须使用随机抽样方法收集数据,以确保样本具有总体代表性。这有助于最大限度地减少偏差,并确保结果可以推广到整个人群。

已知总体标准差: 必须知道或准确估计总体标准差 (σ)。在实践中,总体标准差通常是未知的,样本标准差用作估计值。但是,如果样本数量足够大,则样本标准差可以提供相当准确的近似值。

正态分布或大样本量: Z 过程假定基础总体呈正态分布。但是,如果总体分布不正态,则可以在样本量较大时应用中心极限定理(通常,样本量 n ≥ 30 被认为足够大)。根据中心极限定理,样本均值的抽样分布将接近正态分布,如

七、影响误差幅度的因素

        边际误差是统计估计中由于随机抽样变化而预期的误差量。误差幅度受多种因素影响,包括:

样本数量:样本量越大,误差幅度越大,因为它减少了抽样变异。

信水平:较高的置信水平会增加边际误差,因为它会扩大置信区间。

总体大小:较小的总体大小会增加边际误差,因为它会减少有效样本数量。

总体变异性:总体变异性越大,误差幅度越大,因为它增加了抽样变异

抽样方法:与简单的随机抽样相比,某些抽样方法(如分层抽样或整群抽样)可能会降低误差幅度。

样本中的偏差:如果样本有偏差,则误差幅度可能会增加,因为样本不能准确代表总体。

应答率:较高的无应答率可能会增加误差幅度,因为它会减少有效样本量并可能引入偏倚。

在设计研究或解释统计估计结果时,考虑这些因素非常重要。通过了解影响误差幅度的因素,我们可以更好地解释统计估计的精度和准确性,并做出更明智的决策。

八、T 过程

t 检验是一种统计过程,用于检验样本的均值是否与已知或假设的总体均值显著不同。当总体标准差未知且样本数量较小(小于 30)时使用。

8.1 下面介绍了如何分五个步骤进行 t 检验:

  1. 陈述零假设和备选项假设。原假设 (H0) 是样本均值与总体均值之间没有显著差异的陈述。备择假设 (Ha) 是样本均值与总体均值之间存在显著差异的陈述。
  2. 确定显著性水平 (alpha) 和自由度。Alpha 是犯类型 I 错误的概率,即在原假设为真时拒绝原假设。自由度 (df) 取决于样本数量,等于 n-1。
  3. 计算检验统计量 (t)。检验统计量使用公式 t = (x̄ — μ) / (s / √n) 计算,其中 x̄ 是样本均值,μ是总体均值(假设或已知),s 是样本标准差,n 是样本数量。
  4. 确定 t 的临界值。该值是从具有 n-1 个自由度和所需显著性水平 (alpha) 的 t 分布表中获得的。
  5. 做出决定并解释结果。如果 t 的绝对值大于 t 的临界值,则否定原假设并得出样本均值与总体均值之间存在显著差异的结论。如果 t 的绝对值小于 t 的临界值,则无法否定原假设并得出样本均值与总体均值之间没有显著差异的结论。

例如,假设研究人员想要测试新的饮食计划是否有效减轻体重。随机选择15个人的样本,并记录他们在饮食计划之前和之后的体重。已知饮食计划前的人口平均体重为 175 磅,标准差为 12 磅。研究人员想要检验新的饮食计划导致体重在 0.05 显著水平上显着下降的假设。

  1. 原假设和备择假设为:

H0:μ=175(饮食计划前的平均体重与总体平均体重之间没有显著差异) Ha:μ <175(饮食计划后体重明显下降)

  1. Alpha 为 0.05,自由度为 15–1 = 14。
  2. 计算检验统计量:

        t = (x̄ — μ) / (s / √n) = (170–175) / (12 / √15) = -2.31

        其中 x̄ = 170,s = 12,n = 15。

        确定 t 的临界值:

        从具有 14 个自由度和 0.05 显著性水平的 t 分布表中,t 的临界值为 -1.76。

        由于t的绝对值(-2.31)大于t的临界值(-1.76),因此我们拒绝原假设,并得出结论,饮食计划后体重显着下降。我们可以将结果解释如下:在0.05的显著性水平上,证据表明新的饮食计划导致体重显着下降。阿贾梅塔

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1094149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自定义Docker镜像--Jupyterlab

概述 自定义Jupyterlab镜像&#xff0c;为deployment做准备 步骤 下载基础镜像&#xff1a;centos:7.9.2009 docker search centos:7.9.2009 docker pull centos:7.9.2009 启动容器 部署应用 # 启动容器 docker run -it --name test centos:7.9.2009 bash# 在容器内部署…

windows 10LTSC安装微软应用商店(理论上适用于所有windows10)

LTSC-Add-MicrosoftStore-2019.zip官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘123云盘为您提供LTSC-Add-MicrosoftStore-2019.zip最新版正式版官方版绿色版下载,LTSC-Add-MicrosoftStore-2019.zip安卓版手机版apk免费下载安装到手机,支持电脑端一键快捷安装https://w…

习题2.17

很简单的一个提 代码如下 (defn last-pair[a](if (empty? (rest a))(first a)(last-pair (rest a) ))) 获取列表最后一个元素&#xff0c;递归的办法如上。

WLAN 无线案例(AC配置模板)

实验说明&#xff1a; 无线用户VLAN 30 192.168.30.0/24 AP和AC用VLAN 20 192.168.20.0/24 有线网段 VLAN 10 192.168.10.0/24 步骤一&#xff1a;全网互通 sw1&#xff1a; sysname sw1 # vlan batch 10 20 30 # dhcp enable # ip pool 20 gateway-list 192.168.20.1…

PHP基础语法(上)

目录 前言 一、基础语法 1.1 标记 1.2 输出语句 1.2.1 echo 1.2.2 print 1.3 注释 1.3.1 单行注释 1.3.2 多行注释 1.4 标识符 1.5 关键字 二、数据与运算 2.1 常量 2.1.1 常量的定义和使用 2.1.2 预定义常量 2.2 变量 2.2.1 变量的赋值 2.2.2 超全局变量 2.3 数据类型 2.3.1 …

Python 中的 DNS 查找

本文将讨论 DNS 和 DNS 查找的概念。 之后&#xff0c;我们讨论使用 Python 进行 DNS 查找的方法。 什么是 DNS DNS&#xff08;域名系统&#xff09;将域名转换为公共IP地址。 DNS 服务器将任何网站的域名转换为该网站主机服务器的公共 IP。 DNS查询 DNS 查找是一个过程&…

微信小程序 uniapp+vue线上洗衣店业务管理系统演89iu2

本课题意在设计一种系统的、基于用户体验的线上洗衣服务模式&#xff0c;具有如下的研究意义: (1)为用户提供更简单、便捷的洗衣服务模式; (2)为智能柜的盈利模式提供了新的方向; (3)通过线上系统、智能柜与洗衣工厂结合的方式&#xff0c;为洗衣企业构建了一套节 省人力成本的…

X86_64 栈和函数调用

引言 大家都知道函数调用是通过栈来实现的&#xff0c;而且知道在栈中存放着该函数的局部变量。但是对于栈的实现细节可能不一定清楚。本文将介绍一下在 x86 平台下函数栈是如何实现的。 1、x86-64 汇编 Intel 系列处理器通常称为x86&#xff0c;目前常用的笔记本或台式机都是…

常见场景面试题:BitMap、布隆过滤器

typora-copy-images-to: imgs位图 BitMap BitMap 到底用于解决什么问题&#xff1f; BitMap 常常用于解决一些数据量比较大的问题&#xff0c;比如说对于1千万个整数&#xff0c;整数的范围在 1~100000000&#xff0c;对于一个整数 x &#xff0c;我们怎么知道在不在这1千万个整…

基于springboot实现医院急诊平台系统项目【项目源码】计算机毕业设计

基于springboot实现医院急诊平台系统演示 Spring Boot框架 Spring Boot是Pivotal团队的一个新框架&#xff0c;旨在简化新Spring应用程序的初始设置和开发。该框架使用特定的配置方法&#xff0c;无需开发人员定义样板配置。通过这种方式&#xff0c;Spring Boot旨在成为蓬勃发…

为什么直接用int转换 字符串内为小数类型的变量,会报错?直接转换失败?如何解决?

见图思考&#xff1a;为什么直接用int转换 字符串内为小数类型的变量&#xff0c;会报错&#xff1f;&#xff1f;&#xff1f;直接转换失败&#xff1f;&#xff1f;&#xff1f; 报错的意思就是&#xff1a;值异常&#xff0c;因为小数类型的字符串 ‘10.88’&#xff0c;不…

深度学习实战57-pytorch框架搭建LSTM+CNN模型与实现时间序列的预测过程

大家好,我是微学AI,今天给大家介绍一下深度学习实战57-pytorch框架搭建LSTM+CNN模型与实现时间序列的预测过程, 随着科技的进步,我们越来越依赖数据来理解世界,预测未来。特别是在金融、气候研究、交通管理等领域,时间序列预测已经成为了重要的工具。本文将介绍如何使用L…

Apifox 学习笔记 - 前置操作之:自定义变量给请求参数中使用

Apifox 学习笔记 - 前置操作之&#xff1a;动态更新请求体中的时间戳 1. 在前置操作中添加一个&#xff1a;自定义脚本或公共脚本2. 定义我们所需的环境变量。3. 在请求参数中使用【时间戳】4. 检验5. 示例自定义变量mock 参考资料 1. 在前置操作中添加一个&#xff1a;自定义脚…

如何下载GitHub上的代码

新建好要存储的文件夹 右键选择Git Bash Here ls是查看当前文件夹下的文件&#xff0c;可以忽略 git clone 地址 地址在这 直接点复制&#xff0c;粘贴的时候没办法粘贴 可以发现复制即为&#xff1a;CtrlIns&#xff1b;粘贴即为&#xff1a;ShiftIns 于是我们用ShiftIns…

开源ESP32智能小车机械臂控制板Baize_Carboard(支持mixly)

介绍 采用esp32做主控的Baize_Carboard&#xff0c;支持4路直流电机或者两路步进电机的控制&#xff0c;也可以用于控制两路直流闭环电机。输入电压范围5-12V&#xff0c;有时候电压5V起不来&#xff0c;要高一点。可以用于学习arduino或者ros编程&#xff0c;同时也可以将ros…

一篇博客学懂文件操作——C语言

一、为什么使用文件 为什么要使用文件呢&#xff1f;在刚开始学文件操作时&#xff0c;我发出这种疑问。我只需要写好程序就行&#xff0c;保不保存到文件中都无所谓吧。所以从一开始我也就抱着走马观花的心态&#xff0c;“象征性听一听就好啦”“以后能用到时候再学吧”....…

[爬虫练手]学校院系专业整理

本文基于上一篇博客&#xff1a;[爬虫练手]整理学校招生信息 文章目录 一.改进上一篇的代码二,嵌套爬虫&#xff0c;提取院系和专业信息目前完整代码 三.让AI润色一下代码完整代码代码学习加入print语句&#xff0c;方便理解 其他 一.改进上一篇的代码 上一篇那个页面没有反爬措…

FastBert学习笔记

论文标题《FastBERT: a Self-distilling BERT with Adaptive Inference Time》。 关于这个论文已经有不错的解读了&#xff0c;所以我写的侧重点可能和别人的不太一样&#xff0c;具体的往下看吧&#xff0c;欢迎讨论。 这个论文从两个方面去掌握&#xff1a; 样本自适应推断…

Oracle11g在红帽Linux上的安装教程

一、版本介绍 本次实验环境所使用虚拟机为VMware17&#xff08;16或15版本也可以&#xff09; 镜像版本为Red Hat 7.9&#xff1a; ISO镜像地址&#xff1a; 百度网盘链接 链接&#xff1a;https://pan.baidu.com/s/1p318ZZGMfDp4MllXZXbusg?pwdmpic 提取码&…

C++学习——继承(1)

目录 一&#xff0c;继承是什么&#xff1f; 二&#xff0c;继承的权限 三&#xff0c;继承赋值兼容规则 四&#xff0c;继承中的作用域 一&#xff0c;继承是什么&#xff1f; 我们说面向对象的语言有三大特性&#xff1a;1.封装&#xff0c;2&#xff0c;继承&#xff0c;…