【机器学习 | 假设检验】那些经常被忽视但重要无比的假设检验!! 确定不来看看?(附详细案例)

news2025/1/17 14:12:32

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

@toc

置信区间最佳实践

在统计学和数据分析中,置信区间是一种用于估计参数真实值范围的方法。它提供了一个范围,该范围内有一定的置信度包含了参数的真实值。置信区间的计算通常基于样本数据,并依赖于统计理论和假设。

以下是一般情况下计算置信区间的步骤:

  1. 收集样本数据:首先,需要从总体中收集足够的样本数据。样本应该是随机选择的,并且能够代表总体。

  2. 选择置信水平:确定所需的置信水平,通常以百分比的形式表示,例如95%或99%。置信水平表示在重复抽样的情况下,置信区间将包含参数真实值的比例

  3. 选择合适的分布和统计方法:根据问题的性质和样本数据的特征,选择适当的分布和统计方法。常见的情况是使用正态分布或t分布。

  4. 计算置信区间:使用选择的分布和统计方法,根据样本数据计算置信区间。具体计算的方法因问题而异,但通常基于估计的标准误差和分布的百分位数

  5. 解释结果:将计算得到的置信区间解释给使用者。例如,可以说“根据我们的样本数据,以95%的置信水平,我们估计参数的真实值在置信区间[下界,上界]之间。”

需要注意的是,置信区间是对参数真实值的估计,不是参数的确切值。置信区间给出了一个范围,我们可以合理地认为参数的真实值位于其中,但并不能确定具体的取值。

计算置信区间的方法有很多种,具体的计算步骤和公式可能因问题类型、样本分布和统计方法的选择而有所不同。在实际应用中,通常会使用统计软件或编程语言来计算置信区间,以确保准确性和效率。

当你有少量数据时,可以使用 t 分布来计算置信区间。假设你想要估计某个总体的均值,并且你有一个包含 n 个观测值的样本。以下是一个简单的例子,演示如何计算均值的置信区间。

假设你想要估计一家快餐连锁店每日销售额的均值,你随机选择了10天的销售数据作为样本。这些数据分别是:1200, 1300, 1100, 1400, 1500, 1300, 1600, 1700, 1200, 1400。

步骤:

  1. 计算样本均值:将这些观测值相加,然后除以样本的大小 (n)。在这个例子中,观测值的总和是:1200 + 1300 + 1100 + 1400 + 1500 + 1300 + 1600 + 1700 + 1200 + 1400 = 14,800。样本的大小是10。所以样本均值为:14,800 / 10 = 1480。

  2. 计算样本标准差:计算这些观测值的标准差,用于估计总体的标准差。在这个例子中,可以使用样本标准差来估计总体标准差。样本标准差的计算方式可以参考以下公式:

    σ = ∑ ( x i − x ˉ ) 2 n − 1 \sigma = \sqrt{\frac{\sum{(x_i - \bar{x})^2}}{n-1}} σ=n1(xixˉ)2

    其中, x i x_i xi 表示观测值, x ˉ \bar{x} xˉ 表示样本均值, n n n 表示样本的大小。计算得到样本标准差为: σ = 247.487 \sigma = 247.487 σ=247.487

  3. 计算置信区间:选择置信水平。假设我们选择95%的置信水平,这意味着我们希望置信区间有95%的概率包含参数的真实值。

    使用 t 分布,需要确定自由度。自由度为 n − 1 n - 1 n1,其中 n n n 是样本的大小。在这个例子中,自由度为 10 − 1 = 9 10 - 1 = 9 101=9

    根据 t 分布表或统计软件,找到与所选择的置信水平和自由度相对应的 t 值。对于95%的置信水平和9个自由度,t 值为 2.262。

    置信区间的计算公式为:置信区间 = 样本均值 ± (t 值 * 标准误差)。(如果分布,则根据分布百分比)

    标准误差的计算公式为:标准误差 = 样本标准差 / √n

    在这个例子中,标准误差 = 247.487 / √10 ≈ 78.27。

    因此,置信区间 = 1480 ± (2.262 * 78.27)。计算得到置信区间为 [1332.24, 1627.76]。

解释结果:根据我们的样本数据,以95%的置信水平,我们估计每日销售额的均值在1332.24到1627.76之间。

请注意,这个例子仅用于演示如何计算置信区间,实际数据分析中可能需要考虑更多的因素和技术。

独立同分布概念

独立同分布(independent and identically distributed,简称i.i.d.)是概率统计学中的一个重要概念。

独立(independent)指的是随机变量之间的关系,即一个随机变量的取值不受其他随机变量的取值影响。换句话说,给定一个随机变量的取值,不能提供有关其他随机变量取值的任何信息。例如,抛一枚硬币两次,第一次出现正面和第二次出现正面这两个事件是独立的,因为第一次出现正面的结果不会影响第二次出现正面的概率。

同分布(identically distributed)指的是多个随机变量具有相同的概率分布。换句话说,多个随机变量的取值遵循相同的概率规律。例如,从同一批产品中随机选取多个产品的重量,这些随机变量的取值遵循相同的概率分布。

因此,独立同分布(i.i.d.)的含义是指多个随机变量之间相互独立且具有相同的概率分布。在统计学和机器学习中,独立同分布假设常常被用来简化问题和建立模型。它是许多概率模型和统计推断方法的基础假设之一,使得问题可以更容易地建模和求解。

P-value假设检验

在统计学中,p-value中的"P"代表"probability",即概率。p-value表示观察到的样本数据或更极端情况出现的概率。

在假设检验中,p-value是用于衡量观察到的样本数据对于原假设的支持程度的指标。它表示在原假设为真的情况下,观察到的样本数据或更极端情况出现的概率。

假设检验的一般步骤如下:

  1. 建立原假设(H0)和备择假设(H1)。
  2. 选择适当的统计量,根据样本数据计算统计量的观察值。
  3. 基于原假设,确定统计量在原假设下的分布。
  4. 计算p-value,即在原假设为真的情况下,观察到的统计量值或更极端情况出现的概率。
  5. 根据p-value与事先设定的显著性水平进行比较。
    • 如果p-value小于显著性水平(通常为0.05),则拒绝原假设,认为观察到的数据提供了足够的证据支持备择假设。
    • 如果p-value大于等于显著性水平,则无法拒绝原假设,认为观察到的数据不足以提供足够的证据支持备择假设。

p-value的计算方法与具体的假设检验方法和统计量有关。对于一些常见的假设检验方法,例如t检验和F检验,p-value可以通过查表或使用概率分布函数来计算。对于更复杂的假设检验方法,可能需要使用模拟方法(如蒙特卡洛模拟)或基于抽样分布的方法来估计p-value。

需要注意的是,p-value并不提供关于备择假设的真实性或效应大小的信息。它仅仅是一种衡量观察到数据与原假设的一致性的指标。因此,在解释p-value时,应该谨慎考虑其他因素,如实际背景知识、样本大小和效应大小等。

显著性水平(0.05)

显著性水平通常被设定为0.05(或5%)的原因是出于统计学上的传统和惯例。在假设检验中,显著性水平表示在原假设为真的情况下,我们拒绝原假设的错误概率。换句话说,它是我们犯第一类错误(拒绝一个实际上为真的假设)的概率。

将显著性水平设置为0.05有以下几个原因:

  1. 常用的标准:0.05的显著性水平是在许多学科和领域中被广泛接受的标准,包括经济学、社会科学、医学研究等。这种一致性有助于结果的可比性和解释的一致性。

  2. 平衡类型I和类型II错误:在假设检验中,存在两种类型的错误,即类型I错误(拒绝一个实际上为真的假设)和类型II错误(接受一个实际上为假的假设)。将显著性水平设置为0.05可以在一定程度上平衡这两种错误的风险。

  3. 统计学的权衡:选择显著性水平时需要进行统计学权衡。较低的显著性水平(例如0.01)可以降低犯类型I错误的概率,但可能增加类型II错误的概率。相反,较高的显著性水平(例如0.10)可以增加类型I错误的概率,但可能降低类型II错误的概率。0.05的显著性水平在权衡这两种错误之间提供了一种较为平衡的选择。

需要注意的是,显著性水平的选择并不是绝对的,而是依赖于具体的研究领域、问题的重要性以及研究者自身的偏好。在某些情况下,可能会选择更为保守或更为宽松的显著性水平。

将显著性水平设置为0.05是出于统计学的传统和平衡类型I和类型II错误的考虑。然而,根据具体的研究需求和背景,研究者可以根据自己的判断和需要选择不同的显著性水平。

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1225111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营Day 54 || 392.判断子序列、115.不同的子序列

392.判断子序列 力扣题目链接(opens new window) 给定字符串 s 和 t ,判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形成的新字符串。(例如,&quo…

STM32-基本定时器

一、基本定时器的作用 定时触发输出直接驱动DAC。 二、基本定时器的框图 以STM32F103系列为例,具体开发板请查看开发手册。 类别定时器总线位数计数方向预分频系数是否可以产生DMA捕获/比较通道互补输出基本定时器TIM6 / TIM7APB116位向上1~65536可以0无通用定时…

一起学docker系列之四docker的常用命令--系统操作docker命令及镜像命令

目录 前言1 操作 Docker 的命令1.1 启动 Docker1.2 停止 Docker1.3 重启 Docker1.4 查看 Docker 状态1.5 查看 Docker 所有命令的信息1.6 查看某个命令的帮助信息 2 操作镜像的命令2.1 查看所有镜像2.2 搜索某个镜像2.3 下载某个镜像2.4 查看镜像所占空间2.5 删除镜像2.6 强制删…

基于猕猴感觉运动皮层Spike信号的运动解码分析不同运动参数对解码的影响

公开数据集中文版详细描述参考前文:https://editor.csdn.net/md/?not_checkout1&spm1011.2124.3001.6192神经元Spike信号分析参考前文:https://blog.csdn.net/qq_43811536/article/details/134359566?spm1001.2014.3001.5501神经元运动调制分析参考…

2D槽道流

之前看槽道流时,一直无法在二维槽道流里计算出湍流状态,后来了解到二维槽道流需要额外添加随机扰动,但是这个体积力的植入方式一直不知道。而且看稳定性分析中的OS方程的推导,也是基于2d的NS方程,至今还是很疑惑这个问…

Struts2 数据校验之四兄弟

现在是科技的时代,大多数人都在网上购物了, 我们都碰到过相同的问题,各大网站弄的那些各种各样的注册页面,相信大家都深有体会。 有了这验证就很好的保证了我们的信息的准确性和安全性。 接下来我给大家讲解一下用struts2怎么实…

H5ke11--3介绍本地,会话存储

代码顺序: 1.设置input,捕获input如果有多个用属性选择符例如 input[typefile]点击事件.向我们的本地存储设置键值对 2.在点击事件外面设置本地存储表示初始化的值.点击上面的事件才能修改我们想修改的值 会话(session)浏览a数据可以写到本地硬盘,关闭页面数据就没了 本地(…

2023年【P气瓶充装】报名考试及P气瓶充装复审考试

题库来源:安全生产模拟考试一点通公众号小程序 2023年P气瓶充装报名考试为正在备考P气瓶充装操作证的学员准备的理论考试专题,每个月更新的P气瓶充装复审考试祝您顺利通过P气瓶充装考试。 1、【多选题】充装过程中出现充气头漏气的主要原因为&#xff1…

Java Web——JavaScript运算符与流程语句

1. 运算符 1.1. 算数运算符 数字是用来计算的,比如:乘法 * 、除法 / 、加法 、减法 - 等等,所以经常和算术运算符一起。 算术运算符:也叫数学运算符,主要包括加、减、乘、除、取余(求模)等 …

git拉取普通idea Java项目module没有build的问题

在不断完成一个项目的时候,会有不断新加的module,我们用git拉取时会发生没有识别新module的情况。 解决方法是右键项目名称,然后点击Open Module Settings 接下来,点击Module,加号,新建Module的名字就是在g…

高效文件管理:一键批量修改文件名,并统一转换为大写扩展名

在日常生活和工作中,文件处理成为了一项必不可少的任务。无论是个人还是企业,都需要管理大量的文件,包括图片、文档、音频和视频等。这些文件的名字可能千奇百怪,格式各不相同,而且往往需要按照一定的规则进行修改或整…

MFC 对话框

目录 一、对话款基本认识 二、对话框项目创建 三、控件操作 四、对话框创建和显示 模态对话框 非模态对话框 五、动态创建按钮 六、访问控件 控件添加控制变量 访问对话框 操作对话框 SendMessage() 七、对话框伸缩功能实现 八、对话框小项目-逃跑按钮 九、小项…

十一、统一网关GateWay(搭建网关、过滤器、跨越解决)

目录 一、网关技术的实现 在SpringCloud中网关的实现包括两种: 作用: 二、搭建网关服务 1、新建模块,并添加依赖 2、新建Gateway包,并编写启动类 3、编写yml文件 4、启动服务,并在网页内测试 5、步骤 三、路由断言工厂 …

Vue3 shallowRef 和 shallowReactive

一、shallowRef 使用shallowRef之前需要进行引入: import { shallowRef } from vue; 使用方法和ref 的使用方法一致,以下是二者的区别: 1. 如果ref 和 shallowRef 都传入的是普通数据类型的数据,那么他们的效果是一样的&#x…

OpenGL 的学习之路-4(变换)

三大变换:平移、缩放、旋转(通过这三种变换,可以将图像移动到任意位置) 其实,这背后对应的数学在 闫令琪 图形学课程 中有过一些了解,所以,理解起来也不觉得很困难。看程序吧。 1.画三角形&am…

【C++】类和对象(6)--运算符重载

目录 一 概念 二 运算符重载的实现 三 关于时间的所有运算符重载 四 默认赋值运算符 五 const取地址操作符重载 一 概念 C为了增强代码的可读性引入了运算符重载,运算符重载是具有特殊函数名的函数,也具有其返回值类型,函数名字以及参数…

【使用vscode在线web搭建开发环境--code-server搭建】

官方版本下载 https://github.com/coder/code-server/releases?q4.0.0&expandedtrue使用大于版本3.8.0,因为旧版本有插件市场不能访问的情况版本太高需要更新环境依赖 拉取安装包 []# wget "https://github.com/coder/code-server/releases/download/v4.0.0/code-…

[游戏开发][Untiy]跨平台可视化Log系统

工具介绍 今天介绍的主角是LogViewer 工具运行时长这个样子,Unity的Log日志都会在这里显示 如何安装 在Unity商店搜索Log,排名第一的就是它 也可以去Github官网下载源码: Unity-Logs-Viewerhttps://github.com/aliessmael/Unity-Logs-Vie…

机器学习的医疗乳腺癌数据的乳腺癌疾病预测

项目视频讲解:基于机器学习的医疗乳腺癌数据的乳腺癌疾病预测 完整代码数据分享_哔哩哔哩_bilibili 效果演示: 代码: #第一步!导入我们需要的工具 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inlin…

Python的数据分析包Pandas?示例文章完成版来啦~

文章目录 前言一、Pandas简介二、Python Pandas的使用 总结 前言 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源…