描述统计 | 学习笔记

news2024/11/28 11:00:59

一.导论

统计学是通过收集,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识

统计的本业是消化数据,并产生有营养的结果

数据搜集:调查与试验

数据整理:分组

数据展示:图和表

数据分析:回归分析

1.统计与大数据

统计学是大数据的三大基础学科之一

统计学注重的是方式方法,而大数据则更关注于整个数据价值化的过程

大数据不仅需要统计学知识,还需要具备数学知识和计算机知识

统计学为大数据进行数据价值化奠定了一定的基础

2.统计与数学

数学研究的是抽象的数量规律,统计学则是研究具体的实际现象的数量规律

数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据

统计学与数学研究中所使用的逻辑方法不同:数学研究所使用的主要是演绎;统计学则是演绎与归纳相结合,占主导地位的是归纳

3.分类

描述统计是基础,推断统计是主体

①描述统计

收集/整理/展示数据,目的是描述数据特征和找出数据的基本规律

内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和展示,进而通过综合,概括与分析,得出反映所研究现象的一般性特征

②推断统计

参数估计/假设检验,目的是对总体特征做出推断

研究如何利用样本数据对总体的数量特征进行推断的统计学分支

研究者所关心的是总体的某些特征,但总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题

其内容包括:抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等

4.统计数据类型

①按计量尺度(定性数据:分类/顺序数据,定量数据:数值型数据)

分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的

顺序数据:只能归于某一有序类别的非数字型数据,也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的

数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据

②按收集方法

观测数据:通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的

实验数据:在实验中控制实验对象而收集到的数据,自然科学领域的数据大多是实验数据

③按时间状况

截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况

时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况

5.基本概念

总体:所研究的全部个体(数据)的集合,其中每一个个体也称为元素

样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量

参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值

统计量:用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数

变量:说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化

二.数据的收集

1.数据的来源

间接来源:系统内部,系统外部

直接来源:调查数据,实验数据

2.调查方法

①概率抽样

也称为随机抽样,特点是随机,每个单位被抽中的概率是已知的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

分类:简单随机抽样,分层抽样,整群抽样,系统抽样,多阶段抽样

简单随机抽样:从总体N个单位中随机抽取n个单位作为样本,每个单位入抽样本的概率是相等的,这是最基本的抽样方法,是其它抽样方法的基础。特点是简单直观,在抽样框完整时可直接从中抽取样本,用样本统计量对目标量进行估计比较方便。局限性是当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其它辅助信息以提高估计的效率

分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立随机地抽取样本。优点是保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计

整群抽样:将总体中若干单位合并为组(群),抽样时直接抽取群,然后对选群中的所有单位全部实施调查。特点是抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,缺点是估计的精度较差

系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位

多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干单位进行调查

②非概率抽样

抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查

分类:方便抽样,判断抽样,自愿抽样,滚雪球抽样,配额抽样等

方便抽样:调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。优点是容易实施,调查成本低。缺点是样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体

判断抽样:研究人员依据经验,判断和对研究对象的了解,有目的选择一些单位作为样本。是主观的,样本选择的好坏取决于调研者的判断,经验,专业程度和创造性。抽样成本比较低,容易操作。样本是人为确定,没有依据随机的原则,调查结果不能用于推断总体

自愿抽样:被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。自愿样本与抽样的随机性无关,样本是有偏的,不能依据样本的信息推断总体

滚雪球抽样:先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。优点是容易找到那些属于特定群体的被调查者,调查的成本也是比较低

配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位;操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似;抽取具体样本单位时,不是依据随机原则,属于非概率抽样

3.实验方法

实验组和对照组

实验中的若干问题

实验中的统计

4.数据的误差

抽样误差:由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小的因素(样本量的大小,总体的变异性)

非抽样误差:除抽样误差以外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有调查之中(概率抽样,非概率抽样,全面性调查)

三.数据的概括性度量

1.集中趋势的度量

集中趋势是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,选用哪一个测度值来反映数据的集中趋势要根据所掌握的数据的类型来确定

①分类数据:众数

一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可以用于顺序数据和数值型数据

②顺序数据:中位数和分位数

中位数:排序后处于中间位置上的值;不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;各变量值与中位数的离差绝对值之和最小

四分位数:排序后处于25%和75%位置上的值,不受极端值的影响

③数值型数据:平均数

也称为均值,集中趋势的最常用的测度值;易受极端值的影响;有简单平均数和加权平均数之分;根据总体数据计算的叫做平均数,根据样本数据计算的叫做样本平均数

④众数,中位数和平均数之间的比较

三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数处于一组数据中间位置上的值,而平均数则是全部数据的算术平均

如果数据的分布是对称的,众数,中位数,平均数必定相等

如果数据是左偏分布,说明存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值影响,三者关系:众数 > 中位数 > 平均数

如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数 < 中位数 < 平均数

⑤应用场合

众数:不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用

中位数:不受极端值影响,数据分布偏斜程度较大时应用

平均数:易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用

2.离散程度的度量

①分类数据:异众比率

对分类数据离散程度的测度

非众数组的频数占总频数的比例

用于衡量众数的代表性

异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差

②顺序数据:四分位差

对顺序数据离散程度的测度,也称为内距或四分间距

上四分位数与下四分位数之差

反映了中间50%数据的离散程度

不受极端值的影响

用于衡量中位数的代表性

③数值型数据:方差和标准差(应用最广的离散程度的测度值)

极差:一组数据的最大值与最小值之差,容易受极端值的影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,引而不能准确描述出数据的分散程度

平均差:各变量值与其平均数离差的绝对值的平均数,以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度就越大。为了避免离差之和等于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差

方差:是各变量值与其平均数离差平方的平均数,是实际中应用最广泛的离散程度的测度值,因此它能准确地反映出数据的离散程度

标准差:是方差的平方根,具有量纲,与变量值的计量单位相同,实际意义比方差清楚

④相对离散程度:离散系数

3.相对位置的度量

①标准分数

是指变量值与其平均数的离差除以标准差后的差

可以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置

②经验法则

当一组数据对称分布时

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

约有99%的数据在平均数加减3个标准差的范围之内

③切比雪夫不等式

如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用

切比雪夫不等式提供的是下界,也就是“所占比例至少是多少”

对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k^2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数

4.相对离散程度:离散系数

标准差与其相应的均值之比

对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响

用于对不同组别数据离散程度的比较

5.集中趋势和离散趋势的度量

集中趋势:指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在(描述集中趋势所采用的测度值分为:众数,中位数,分位数,平均数)

离散趋势:反映的各变量值远离其中心值的程度,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率,四分位差,方差和标准差,此外还有极差,平均差以及测度相对离散程度的离散系数

6.偏态

数据分布对称性的测度

偏态数据 = 0:对称分布

偏态数据 > 0:右偏分布

偏态数据 < 0:左偏分布

偏态系数越接近0,偏斜程度就越低

7.峰态

数据分布扁平程度的测度

峰态系数 = 0:扁平峰度适中

峰态数据 < 0:扁平分布

峰态数据 > 0:尖峰分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/85564.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java语言【#107. 七的奇倍数】(已通过)

题目描述 ​ 如果一个数既是 7 的倍数又不能被 2 整除&#xff0c;那么我们称之为七的奇倍数。 ​ 输入一个正整数 n&#xff0c;判断它是否是 7 的奇倍数。 输入 ​ 输入一个正整数 n &#xff08;0≤n≤100&#xff09; 输出 ​ 如果 n 是 7 的奇倍数 输出 YES 否则输出 NO…

校园二手市场开题报告范文

目录 一、课题意义&#xff08;包括课题的理论意义和现实意义&#xff09; &#xff08;一&#xff09;理论意义 &#xff08;二&#xff09;现实意义 二、文献综述&#xff08;包括&#xff1a;1.理论的渊源及演进过程2.国内外对本课题的研究现状和有待解决的问题3.本人对所…

适合rv1109+rv1126使用基于RKmedia的人脸和车牌识别的SDK及使用介绍说明

基于RKmedia开发的人脸识别和车牌识别SDK简介及使用 一、功能简介 SDK下载&#xff1a;https://download.csdn.net/download/DeepLearning_/87272848 人脸检测&识别 对于人脸部分&#xff0c;SDK 提供了以下能力&#xff1a; 1. 人脸检测 1.1 人脸是否带口罩判定 1.2…

路由器的安装方法步骤

路由器的安装和设置如下&#xff1a; 1.首先连接线路&#xff0c;可以参考下图 2.线路连接完毕后&#xff0c;打开浏览器输入路由器的管理地址和管理密码然后进入路由器后台&#xff08;具体路由器的登录地址和登录密码可以参考说明书或者是路由器背面的标签&#xff09; 3.…

Nacos配置管理-配置热更新

Nacos配置自动刷新 Nacos中的配置文件变更后&#xff0c;微服务无需重启就可以感知。不过需要通过下面两种配置实现&#xff1a; 热更新-方法一&#xff1a;使用RefreshScope注解 在Value注入的变量所在类上添加RefreshScope注解&#xff1b; RestController RequestMapping(&…

直播|BIA Separations 和元生物两位大咖关于质粒DNA的制造工艺和质量控制

质粒 DNA&#xff08;pDNA&#xff09; 是生物研究和治疗开发中用于转移或表达基因的一个基本组成部分。细胞与基因治疗中最常用的载体AAV和慢病毒的生产都需要质粒作为起始材料&#xff0c;随着基因治疗&#xff0c;细胞治疗及DNA疫苗的快速发展&#xff0c;快速高效的大规模工…

腾讯云原生数据湖存储服务能力再上新,三级加速体系助力企业用数赋智

随着数据价值被越来越多企业认可&#xff0c;数据湖存储已成为企业级存储的首选和新一代提升生产力的服务。12月1日&#xff0c;在2022腾讯数字生态大会存储专场&#xff0c;腾讯云升级了云原生数据湖产品能力&#xff0c;并详细阐释了其设计理念&#xff0c;对其在多个行业的应…

数据万象技术演进之路

前言 Dale&#xff08;1969&#xff09;的“经验之塔”指出人们获取信息70%以上是通过视觉途径&#xff0c;在互联网时代也不例外。在当今图片音视频服务等已成为一个互联网应用中占比很大的部分&#xff0c;对图片和音视频等数据的处理能力也相应变成企业和开发者的一项基本技…

C++中二叉树的非递归遍历方法2-2

4 代码实现二叉树的非递归遍历 在“2 二叉树的遍历方法”中提到&#xff0c;二叉树的遍历方法有前序遍历、中序遍历、后序遍历属于深度优先遍历。接下来以前序遍历为例&#xff0c;通过代码实现该方法的二叉树非递归遍历。 4.1 前序遍历 4.1.1 前序遍历的非递归步骤 因为前…

记一次go协程读写锁 sync.RWMutex未释放导致其他协程阻塞bug

记一次go协程读写锁 sync.RWMutex未释放导致其他协程阻塞bug记一次go协程读写锁 sync.RWMutex未释放导致其他协程阻塞bug用到的监测工具程序简要介绍示例代码运行结果运行结果分析记一次go协程读写锁 sync.RWMutex未释放导致其他协程阻塞bug 通过一个简单示例模拟某协程结束&a…

[附源码]Python计算机毕业设计电影院订票系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等…

第53篇 Qt Quick项目详解

导语 前面我们一起创建了一个Qt Quick项目&#xff0c;并对里面的文件进行了简单的讲解&#xff0c;虽然这只是一个HelloWorld程序&#xff0c;但对于没有Qt Quick编程经验的同学来说&#xff0c;这个项目还是有点复杂。在这一篇中&#xff0c;我们将从最简单的QML文件讲起&am…

Flutter Web CORS解决方案1-禁用浏览器安全策略

Flutter Web CORS解决方案1设置CHROME_EXECUTABLE关于 CHROME_EXECUTABLE创建 CHROME_EXECUTABLE修改 chrome.dart 禁用安全策略升级 flutterSDK 后需重新修改升级后指定--web-hostname参数问题浏览器启用 Allow-CORS 插件部分协议OPTIONS预检跨域问题本文介绍第一种解决Flutte…

《纳瓦尔宝典》笔记一——你是在跟自己竞争,这是一场单人游戏

目录 一、身体的健康是top1 二、你唯一拥有的就是时间 三、选择短期内更更痛苦的道路 四、人生早期有三个重大决定 五、从雇佣关系中解脱出来 六、找合作伙伴 七、你真的嫉妒别人吗 八、从期待中解放出来 九、向内求-内在的评价标准 十、人生的大赢家就是同时拥有时间…

[附源码]Nodejs计算机毕业设计基于RationalRose的教务管理系统开发Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分…

基于java+swing+mysql图书管理系统3

大作业-基于java swing图书管理系统3一、系统介绍二、功能展示1.管理员登陆2.图书类别添加3.图书类别维护4.图书添加5.图书维护三、系统实现1.BookManageMainFrame.java四、其它1.其他系统实现五.获取源码一、系统介绍 该系统实现了用户登陆、图书类别管理(图书类别添加、图书…

JavaEE 初始化两个上下文对象,导致更新网站访问次数更新失败

问题描述 &#xff1a; 在做网站次数统计的时候&#xff0c;需要用到上下文对象&#xff0c;最终在上下文监听中发现上下文对象创建两次&#xff0c;销毁两次&#xff0c;导致数据库中网站访问次数统计更新失败。 原因 &#xff1a; 我们更改了项目的访问路径&#xff0c;就会导…

使用Java实现上传图片到七牛云

文章目录1.登录七牛云官网&#xff0c;注册账号并登录2.在项目中导入七牛云依赖3.编写创建文件名工具类4.编写连接七牛云工具类5.编写前端请求的Controller6.上传成功1.登录七牛云官网&#xff0c;注册账号并登录 2.在项目中导入七牛云依赖 <!-- 七牛云依赖 --> <!-…

力扣1832.判断句子是否为全字母句(cpp实现+解析)

文章目录1832.判断句子是否为全字母句解法一解法二解法三&#xff08;最优&#xff09;1832.判断句子是否为全字母句 难度&#xff1a;简单 力扣传送门&#xff1a; https://leetcode.cn/problems/check-if-the-sentence-is-pangram/description/ 题目要求&#xff1a; 全字…

Compose学习 -> Image()

基本使用&#xff1a; 通过资源id加载资源文件 Image(painter painterResource(id R.mipmap.test_01),contentDescription "这是内容描述") 通过url地址加载网络图片 1、引入第三方库&#xff0c;并添加网络权限 implementation ("io.coil-kt:coil-comp…