解码数据世界:统计学入门与应用指南

news2024/12/23 17:10:11

引言

统计学可以被定义为研究数据的科学,它涉及到数据的收集、分析、解释和呈现。其目标是从数据中提取有意义的信息,并使用这些信息来做出推断与决策。

统计学主要分别以下几个主要领域:

  1. 描述性统计:使用图表、图形和其他工具来总结和描述数据的特征。
  2. 推断性统计:使用概率论来从样本数据推断总体的特征,包括估计和假设检验。
  3. 回归分析:研究变量之间的关系,并预测一个变量基于其他变量的值。

统计学不仅是一门科学,也是一门语言,他使我们能够和数据对话。随着大数据和人工智能的发展,统计学的重要性将进一步增加,因为它是理解和利用这些技术的基础。

第一部分:基本概念

统计学中常见的基本概念包括:

总体:指研究对象的全部个体。

样本:指从总体中选取的一部分个体,通过对样本的研究,可以推断总体的特征。

变量:指可以在不同观测值之间变化的特征或属性,根据变量的类型可分别定性数据和定量数据。比如投骰子时,统计投中1到6每个数值的次数,得到的数据就是定量数据,如果投中1到3认为是“小”,投中4到6认为是“大”,此时得到的数据就是定性数据。

概率:指某个事件发生的可能性的度量,通常表示为0到1之间的数值。

随机变量:变量可以取多个值,因此在统计学中,经常会用到具有概率分布特性的变量,这就是随机变量。(随机变量,只有通过试验才能确认其数值。)随机变量可以是离散的(取有限或可数的值)或连续的(取无限且连续的值)。

置信区间:指的是一个参数可能值的一个范围区间,并指定了这个区间包含真实参数值的置信水平,比如(95%,99%)

常见的统计量包括:

最大值、最小值:最大值、最小值主要用来发现数据的边界,通过计算最大值与最小值的差值,还可以得到数据的极差值,这些都有助于对整体数据的范围有所了解。

平均值(μ) :平均值反映了一组数据集中趋势的量数,是指一组数据中的所有数据之和再除以这组数据的个数。

例题1:美术组有2名女生,2人平均8岁,3名男生, 3人平均13岁,美术组5人平均多少岁?

美术组2名女生一共:28=16岁,3名男生一共:313=39岁

美术组5人平均年龄 = 总年龄 ÷ 总份数 = (16+39) ÷ 5 = 11岁

例题2:五个数的平均数是8,若把其中的一个数改为20,平均数变为11,这个数原来是多少?

五个数总和 = 8 * 5 = 40

其中一个数改为20后总和 = 11 * 5 = 55

总和相差:15,因此原数 = 5

中位数:指按照顺序排列的一组数据中居于中间位置的数,如果总数是偶数时,正中间会有两个数据,把两个数据相加再除以2就是中位数。中位数同平均数一样,常用来反映一组数据集中趋势情况,与平均数不同的是,中位数不受数据集中极大或极小值的影响,中位数表示所观察的数据集中有一半的数大于它,另一半的数小于它。

例题:找出这组数据:23、29、20、32、23、21、33、25 的中位数。

首先排序:20、21、23、23、25、29、32、33

中位数:(23+25) ÷ 2 = 24

众数:指在一组数据中出现次数最多的数,众数同样是用来反映一组数据集中趋势的情况。

例题:找出这组数据:23、29、20、32、23、21、33、25 的众数。

23出现了2次,其他每一个数字都只出现1次,所以众数是23。

四分位间距:计算公式IQR = Q3 - Q1,Q3表示数据集中75%的数值都小于或等于它的值,Q1表示数据集中25%的数值都小于或等于它的值。二者相减就表示数据集中50%的数据分散程度。四分位间距对异常值相对不敏感,也就是说即使数据集两端存在极端值影响也不大。

例题:计算这组数据:100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115的四分位间距。

Q1:103,Q2:107.5(Q2就是中位数),Q3:112

IQR = Q3 - Q1 = 9

偏差:偏差表现的是在数据集中每个数据偏离平均值的程度,即每个数据与平均值的差值。

例题:计算这组数据:23、29、20、32、23、21、33、25每个数值的偏差

原数:23、29、20、34、23、21、33、25

平均值:26

偏差:-3、3、-6、8、-3、-5、7、-1

方差:用来衡量一组数据的离散程度,偏差是对比每一个数据与平均值的差异,方差是衡量整组数据与平均值的差异情况。

通过平方计算可以使差异更加明显,差异小的会变得更小,差异大的则会更大,比如偏差为0.1,平方后则为0.01,而偏差为10的,平方后则是100。

例题1:计算这组数据:23、29、20、32、23、21、33、25的方差
在这里插入图片描述

例题2:计算这组样本数据:23、29、20、32、23、21、33、25的样本方差

实际情况中,总体数据很难得到,大多数情况下都是以样本代替总体,而样本方差的计算公式如下:
在这里插入图片描述

标准差:方差和标准差都是测算离散趋势的常用指标,标准差是方差算法平方根,因为与变量的计算单位相同,数据看起来更为直观,因此更多时候会使用标准差来进行分析。

在这里插入图片描述

协方差:协方差是用于衡量两个变量的总体误差,方差表示的一个变量,而协方差表示的两个变量,通过观察两个变量的变化关系来分析其相关程度,一般可以分别:正相关、负相关、不相关。

相关性又可以通过计算相关系数r来表示,取值范围是-1~1。正相关程度越高时其值越接近1,反之则越接近-1

一般而言,根据r的取值,大致可以分为以下5种情况:

  • r <= -0.6 很强的负相关
  • 0.6 <= r <= -0.2 普通负相关
  • -0.2 <= r <= 0.2 不相关
  • 0.2 <=r <= 0.6 普通的正相关
  • r >= 0.6 很强的正相关

例题:根据如下表格,计算两个变量之间的关联程度。
在这里插入图片描述

第二部分:描述性统计

描述性统计是统计学中用于描述和展示数据集特征的一系列方法。它通常包括数据的收集、整理、分类和呈现,旨在提供对数据集的基本理解。其中图形化展示是描述性统计中非常重要的一部分,它可以帮助我们更直观地理解数据。常见的图形包括:条形图、折线图、饼图、直方图等等。

条形图:主要通过高度或长短来反映数据的多少。

饼图:可以更直观的反映各个数据部分构成的比例情况。

折线图:折线图通常用来表示随时间而变化的连续数据,反映数据在某段时间的变化趋势。

直方图:适用于展示定量数据的频率分布。

图表中的小陷阱

通过图形化能够让数据更为直观的反映出来,但也有小心其中的一些小“陷阱”。

1. 折线的波动

比如下面这张图,实际上是同一组数据集,只有由于两张折线图纵坐标一个是从0值开始的,一个是从970000开始的,就会让人看起来产生了不一样的波动效果。

2. 增长趋势

同样的伎俩,通过调整纵坐标的间距,就可以让蓝线和橘线的增长趋势截然相反。

3. 区间统计

通过调整统计区间,得到不一样的传达效果,左图是来自凤凰新闻,右图来自BBC。虽然两张地图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色,很有误导性。而凤凰网的数据划分范围就合理的多,是以 10 的次方为分界线。
在这里插入图片描述

4. 非正常比例扩增

在这里插入图片描述

第三部分:推断性统计

推断性统计是统计学的一个重要分支,它允许我们使用样本数据来推断总体的特征。这种推断是通过估计总体参数和测试关于总体的假设来实现的。推断性统计主要包括两个部分:估计和假设检验。

估计

估计是指使用样本数据来推断总体参数(如总体平均值、总体比例或总体方差)的过程。在估计过程中,我们计算样本统计量(如样本平均值、样本比例或样本方差),并使用这些统计量作为总体参数的估计值。估计可以是点估计,也可以是区间估计。

  • 点估计:点估计是指用单个值(通常是样本统计量)来估计总体参数。如果我们想估计一个城市的上班族的平均月收入,我们可能会计算一个随机选择的样本的平均收入,并将其作为总体平均收入的估计。

    例如:有三个上班族,他们的月收入分别为:1万、2万、3万,于是我们就通过他们的月收入的平均值计算:(1+2+3)/ 3 = 2万,推断出所有上班族的月收入平均值为2万,2万是一个明确的数值(点),这样的估计方法就被称为点估计。

  • 区间估计:区间估计提供了一个包含总体参数可能值的区间,这个区间与置信水平(如95%)相关。我们可能会说,我们有95%的把握认为总体平均收入位于样本平均收入的一个特定区间内。

    例如:用区间估计的方式,最后我们得出的结论会是这样:有95%的情况,平均月收入在0.87万~3.13万之间。
    很明显,利用区间估计比点估计更可靠,因为区间估计的正确率是已知的。

区间估计原理

为什么区间估计可以仅凭一个样本,就能推断出总体的平均值和方差的置信区间,并说明其置信度呢?

基本步骤

  1. 收集样本数据:从总体中反复抽取多个样本,并计算样本的统计量,包括:样本的平均值、标准差等。
  2. 选择置信水平:确定你想要的置信水平,如:95%。
  3. 查找临界值:根据置信水平,查找适当的临界值,如果是正太分布,通过使用Z分布,对于其他情况,通常会使用到t分布。
  4. 构建置信区间:最后,根据标准差、临界值来构建置信区间。
  5. 置信区间计算公式:在这里插入图片描述

接下来我们可以举一个例子来说明,如果我们要估计一个公司员工的平均年收入,则可以通过如果几步求得。

在这里插入图片描述

接下来的例子还可以让我们通过样本比例来推断总体比例,假设随机调查某地100名30到40岁的男性得出样本的单身率为0.48,据此估计该地全体30到40岁男性单身率。

在这里插入图片描述

根据Z分布推断

Z分布称为标准正太分布,其均值为0,标准差为1,然后我们通过将原始数据转换为Z分数,最终得到原数数据在整体数据中的一个水平。

Z分数的计算公式

在这里插入图片描述

接下来我们举一个例子来说明,假设我们有一份学生的考试成绩数据集,均值为70分,标准差为10分。其中一个学生的考试成绩是85分。我们想知道85分大概处于什么样的水平?

在这里插入图片描述

我们再来举一个例子说明,假设某地高校的录取委员会希望录取所有考生中前5%的考生,假设本次考试中平均分数为500分,标准差为100分,那么起码要考到多少分,才能达到该高校的要求。

在这里插入图片描述

Z分布表

二项分布

在这里插入图片描述

**举个例子:假设有一个骰子,投掷10次,求恰好有3次投到6的概率?
在这里插入图片描述

假设检验

统计检验通常是用随机抽样获得的样本的分析结果,判断某个结论是否正确,是一种基于概率判断“某种想法或结论”是否正确的方法。

举个例子:我有一个骰子,首先我假设这骰子是合格的(即:每一面投出的概率是相同的),在此基础上我投出该骰子10次并发现了其中有8次都是偶数,我想如果它是一枚正常的骰子,投10次至少有8次都是偶数的概率能有多少?

根据二项式计算得出:

在这里插入图片描述
最后相加求出概率大约为:0.0546875,由于我认为投出这样的概率实在是太小了,因此拒绝这个骰子是合格的这个假设。

简单来说就是,如果发生了小概率事件,我不认为它是巧合,我想它一定是有问题的。当然,由于小概率事件一定会发生,所以也就避免不了造成一定的错误,在检验时通常有两类错误,一种是“原假设是正确的,却拒绝了原假设”,一种是“原假设是错误的,却接受了原假设”

不难看出,这两类错误是互补的关系,就像设置异常告警通知一样,要想减少漏报的情况,就会设置更为敏感的告警条件,但这同时也会带来更多的误报。反过来,要想减少误报的情况,就需要设置相对不敏感的告警条件,但这就更容导致漏报的情况产生。

由于,0.0546875是放弃我假设这骰子是合格的评价尺度,所以又被称为风险率。 同时发生小概率事件又是必然的,所以作为小概率事件的判断基准,0.0546875又被称为显著性水平。

所以,如果我们将显著性水平调整到0.01,那么就会接收偶数出现8次这个小概率事件,认为骰子是合格的,只有当出现了9次及以上为偶数,才会拒绝原假设。

第四部分:回归分析

回归分析是统计学中一种强大的工具,用于研究变量之间的关系,并预测或估计一个变量基于其他变量的值。它可以用于估计变量之间的关系强度、方向和形式,并且可以用于预测和控制。人们习惯于通过这样的研究结果来描述复杂事物,解决复杂的问题

一元回归分析

一元回归分析指的是通过建立一个线性模型,然后由一个变量预测另一个变量的情况。

其数学表达式为:
在这里插入图片描述

多元回归分析

多元回归分析实际上同一元回归分析的基本思想是相同的,只有由一个变量的的预测,变成了多个变量的预测,可以处理更为复杂的变量间的关系。

同样通过Excel表格可以帮助我们进行分析。
在这里插入图片描述

总结

最后,希望本篇文章能为读者打开学习统计学的大门。通过掌握统计学的基本原理和技术,你将能够更好地理解和分析数据,从而在业务分析、商业决策以及日常生活中做出更加明智的选择。记住,统计学不仅仅是关于数字,更是关于洞察力和解释的艺术。随着不断学习和实践,你将能够更有效地利用统计学来解决各种问题,并发现数据背后蕴藏的真谛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1620132.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++之入门

文章目录 1、前言2、C的关键字2.1C语言32关键字2.2C关键字(63个) 3、命名空间4、输入输出(cout、cin)4、缺省参数5、函数重载6 引用6.1 引用的定义6.2 引用的特性6.3引用的使用场景6.4 实际例子6.5、总结 7、内联函数8、auto关键字9、nullptr关键字 1、前言 C语言是结构化和模…

【声呐仿真】学习记录0-服务器配置docker、ros环境

【声呐仿真】学习记录0-服务器配置docker、ros环境 前言一、~~0.设置mobaXterm~~1.拉取镜像2.服务器开启xhost&#xff0c;可视化&#xff08;rviz、gazebo&#xff09;3.创建容器&#xff0c;挂载数据卷4.测试宿主机与容器数据是否同步5.测试5.0测试xclock5.1测试ros小乌龟5.2…

算术表达式计算程序:Python语言实现

算术表达式计算程序&#xff1a;Python语言实现 本文介绍通过Python语言实现算术表达式计算程序的过程。 我们将按照软件工程的基本步骤来介绍&#xff1a; 需求分析设计实现 程序的需求 我们的程序具有如下功能&#xff1a; 用户在提示符下输入一个算术表达式&#xff0…

碰到今日伦敦银价格走势图不懂得分析怎么办?

踏入2024年&#xff0c;伦敦银出现了比往年更多的投资机会&#xff0c;尤其是近期伦敦银价格连续上涨突破多个整数关口&#xff0c;现在已经站在28上方。碰到这么强的走势&#xff0c;投资者自然很想快点入场交易。但是交易前投资者需要分析今日伦敦银价格走势图之后再入场&…

ffmpeg支持MP3编码的方法

目录 现象 解决办法 如果有编译包没有链接上的情况 现象 解决办法 在ffmpeg安装包目录下 &#xff0c;通过./configure --list-encoders 和 ./configure --list-decoders 命令可以看到&#xff0c;ffmpeg只支持mp3解码&#xff0c;但是不支持mp3编码。 上网查寻后发现&…

idm序列号永久激活码2023免费可用 IDM软件破解版下载 最新版Internet Download Manager 网络下载加速必备神器 IDM设置中文

IDM是一款多线程下载工具&#xff0c;全称Internet Download Manager。IDM的多线程加速功能&#xff0c;能够充分利用宽带&#xff0c;所以下载速度会比较快&#xff0c;而且它支持断点续传。它的网站音视频捕获、站点抓取、静默下载等功能&#xff0c;也特别实用。 idm使用技…

SS34B-ASEMI超低Low VF肖特基SS34B

编辑&#xff1a;ll SS34B-ASEMI超低Low VF肖特基SS34B 型号&#xff1a;SS34B 品牌&#xff1a;ASEMI 封装&#xff1a;SMB 最大平均正向电流&#xff08;IF&#xff09;&#xff1a;3A 最大循环峰值反向电压&#xff08;VRRM&#xff09;&#xff1a;40V 最大正向电压…

hyperf 三十一 极简DB组件

一 安装及配置 composer require hyperf/db php bin/hyperf.php vendor:publish hyperf/db 默认配置 config/autoload/db.php 如下&#xff0c;数据库支持多库配置&#xff0c;默认为 default。 配置项类型默认值备注driverstring无数据库引擎 支持 pdo 和 mysqlhoststringl…

线程安全以及解决方案

文章目录 1.线程安全的原因①抢占式执行②多线程修改同一个变量③修改的操作不是原子的④内存可见性⑤指令重排序 2. 线程安全的解决方案3 synchronized的特性------可重入锁 1.线程安全的原因 ①抢占式执行 操作系统对线程的调度是随机的&#xff0c;没有规律&#xff08;主…

什么便签好用又没广告 好用无广便签分享

身处这个快节奏的时代&#xff0c;我们时常被各种琐事和计划所包围。想象一下&#xff0c;你在办公桌前&#xff0c;电脑屏幕上杂乱无章地贴着各种纸质便签&#xff0c;有的记录着待办事项&#xff0c;有的则是灵感闪现时的几句诗句。每次想要查找某个信息&#xff0c;都得费力…

Golang | Leetcode Golang题解之第42题接雨水

题目&#xff1a; 题解: func trap(height []int) (ans int) {n : len(height)if n 0 {return}leftMax : make([]int, n)leftMax[0] height[0]for i : 1; i < n; i {leftMax[i] max(leftMax[i-1], height[i])}rightMax : make([]int, n)rightMax[n-1] height[n-1]for i…

CANoe-Vector Security Manager介绍

Vector Security Manager 是 Vector 公司提供的一种工具,它为像 CANoe 这样的 Vector 工具提供安全功能,例如安全相关的通信(SecOC)、诊断、认证等,这些功能都是在安全配置文件中进行管理的。所有支持的工具都采用统一的配置方式。 一个安全配置文件为工具提供了以下安全…

探索AI时代的新天地:LLAMA3引领人工智能革命

大家好&#xff01;相信大家对于AI&#xff08;人工智能&#xff09;的发展已经有了一定的了解&#xff0c;但你是否意识到&#xff0c;到了2024年&#xff0c;AI已经变得如此强大和普及&#xff0c;带来了我们从未想象过的便利和创新呢&#xff1f;让我们一起来看看AI在这个时…

如何安全高效地进行网点文件下发?

随着IT技术的飞速发展&#xff0c;以银行为代表的企业数字化技术转型带来了大量的电子化文档传输需求。文件传输数量呈几何级数增长&#xff0c;传统集中式文件传输模式在爆炸式的增长需求下&#xff0c;银行网点文件下发的效率、可靠性、安全性等方面&#xff0c;都需要重点关…

边缘计算的优势

边缘计算的优势 边缘计算是一种在数据生成地点附近处理数据的技术&#xff0c;而非传统的将数据发送到远端数据中心或云进行处理。这种计算模式对于需要快速响应的场景特别有效&#xff0c;以下详述了边缘计算的核心优势。 1. 降低延迟 边缘计算通过在数据源近处处理数据&…

2款摄像头录像软件,满足你的多种要求!

“有没有一款能够录制摄像头视频的软件呀&#xff1f;我计划录制一些生活小窍门和教学视频&#xff0c;想要能清楚地拍到自己的操作过程。但找了好多软件&#xff0c;都不太满意&#xff0c;真心希望大家能给我推荐几款好用的摄像头录像软件&#xff0c;最好能简单易上手的&…

GPU功能介绍简介

GPU功能介绍简介 随着计算需求的不断升级&#xff0c;尤其是在图形密集型和并行计算任务中&#xff0c;GPU已经从一个简单的图像渲染器件演变成一个强大的计算工具。本篇文章将深入探讨GPU的核心功能、架构以及其在多个领域中的应用。 一、GPU的起源与演进 GPU最初设计用于加速…

百兆集成网络链接器911105A

百兆集成网络链接器&#xff08;有时也称为百兆网卡&#xff09;是一种硬件设备&#xff0c;主要用于计算机与计算机网络之间的高速数据传输。它的主要功能包括&#xff1a; 1. 高速数据传输&#xff1a;百兆集成网络链接器支持100Mbps的数据传输速率&#xff0c;比之前的以太…

抖音老阳讲的选品师项目普通人能赚钱吗?

随着互联网的快速发展&#xff0c;电商行业也迎来了前所未有的繁荣。在这个背景下&#xff0c;选品师这一职业逐渐走进人们的视野。老阳作为行业内的知名人士&#xff0c;经常分享选品师的经验和项目。那么&#xff0c;普通人能否参与老阳讲的选品师项目并且赚钱吗?答案是肯定…

护眼台灯有辐射吗?曝光护眼台灯四大套路!

护眼台灯能够提供便利、健康的光线环境&#xff0c;但作为光学测评师&#xff0c;我观察到一些低品质的护眼台灯存在重大的隐患&#xff0c;这些由劣质材料生产而成的护眼台灯&#xff0c;在使用的过程中&#xff0c;有可能会释放对人体视力有害的辐射&#xff0c;甚至会导致黄…