统计学 | 描述统计

news2024/11/24 17:55:34

一.导论

统计学是通过收集,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识

统计的本业是消化数据,并产生有营养的结果

数据搜集:调查与试验

数据整理:分组

数据展示:图和表

数据分析:回归分析

1.统计与大数据

统计学是大数据的三大基础学科之一

统计学注重的是方式方法,而大数据则更关注于整个数据价值化的过程

大数据不仅需要统计学知识,还需要具备数学知识和计算机知识

统计学为大数据进行数据价值化奠定了一定的基础

2.统计与数学

数学研究的是抽象的数量规律,统计学则是研究具体的实际现象的数量规律

数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据

统计学与数学研究中所使用的逻辑方法不同:数学研究所使用的主要是演绎;统计学则是演绎与归纳相结合,占主导地位的是归纳

3.分类

描述统计是基础,推断统计是主体

①描述统计

收集/整理/展示数据,目的是描述数据特征和找出数据的基本规律

内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和展示,进而通过综合,概括与分析,得出反映所研究现象的一般性特征

②推断统计

参数估计/假设检验,目的是对总体特征做出推断

研究如何利用样本数据对总体的数量特征进行推断的统计学分支

研究者所关心的是总体的某些特征,但总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题

其内容包括:抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等

4.统计数据类型

①按计量尺度(定性数据:分类/顺序数据,定量数据:数值型数据)

分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的

顺序数据:只能归于某一有序类别的非数字型数据,也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的

数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据

②按收集方法

观测数据:通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的

实验数据:在实验中控制实验对象而收集到的数据,自然科学领域的数据大多是实验数据

③按时间状况

截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况

时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况

5.基本概念

总体:所研究的全部个体(数据)的集合,其中每一个个体也称为元素

样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量

参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值

统计量:用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数

变量:说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化

二.数据的收集

1.数据的来源

间接来源:系统内部,系统外部

直接来源:调查数据,实验数据

2.调查方法

①概率抽样

也称为随机抽样,特点是随机,每个单位被抽中的概率是已知的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

分类:简单随机抽样,分层抽样,整群抽样,系统抽样,多阶段抽样

简单随机抽样:从总体N个单位中随机抽取n个单位作为样本,每个单位入抽样本的概率是相等的,这是最基本的抽样方法,是其它抽样方法的基础。特点是简单直观,在抽样框完整时可直接从中抽取样本,用样本统计量对目标量进行估计比较方便。局限性是当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其它辅助信息以提高估计的效率

分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立随机地抽取样本。优点是保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计

整群抽样:将总体中若干单位合并为组(群),抽样时直接抽取群,然后对选群中的所有单位全部实施调查。特点是抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,缺点是估计的精度较差

系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位

多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干单位进行调查

②非概率抽样

抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查

分类:方便抽样,判断抽样,自愿抽样,滚雪球抽样,配额抽样等

方便抽样:调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。优点是容易实施,调查成本低。缺点是样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体

判断抽样:研究人员依据经验,判断和对研究对象的了解,有目的选择一些单位作为样本。是主观的,样本选择的好坏取决于调研者的判断,经验,专业程度和创造性。抽样成本比较低,容易操作。样本是人为确定,没有依据随机的原则,调查结果不能用于推断总体

自愿抽样:被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。自愿样本与抽样的随机性无关,样本是有偏的,不能依据样本的信息推断总体

滚雪球抽样:先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。优点是容易找到那些属于特定群体的被调查者,调查的成本也是比较低

配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位;操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似;抽取具体样本单位时,不是依据随机原则,属于非概率抽样

3.实验方法

实验组和对照组

实验中的若干问题

实验中的统计

4.数据的误差

抽样误差:由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小的因素(样本量的大小,总体的变异性)

非抽样误差:除抽样误差以外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有调查之中(概率抽样,非概率抽样,全面性调查)

三.数据的概括性度量

1.集中趋势的度量

集中趋势是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,选用哪一个测度值来反映数据的集中趋势要根据所掌握的数据的类型来确定

①分类数据:众数

一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可以用于顺序数据和数值型数据

②顺序数据:中位数和分位数

中位数:排序后处于中间位置上的值;不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;各变量值与中位数的离差绝对值之和最小

四分位数:排序后处于25%和75%位置上的值,不受极端值的影响

③数值型数据:平均数

也称为均值,集中趋势的最常用的测度值;易受极端值的影响;有简单平均数和加权平均数之分;根据总体数据计算的叫做平均数,根据样本数据计算的叫做样本平均数

④众数,中位数和平均数之间的比较

三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数处于一组数据中间位置上的值,而平均数则是全部数据的算术平均

如果数据的分布是对称的,众数,中位数,平均数必定相等

如果数据是左偏分布,说明存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值影响,三者关系:众数 > 中位数 > 平均数

如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数 < 中位数 < 平均数

⑤应用场合

众数:不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用

中位数:不受极端值影响,数据分布偏斜程度较大时应用

平均数:易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用

2.离散程度的度量

①分类数据:异众比率

对分类数据离散程度的测度

非众数组的频数占总频数的比例

用于衡量众数的代表性

异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差

②顺序数据:四分位差

对顺序数据离散程度的测度,也称为内距或四分间距

上四分位数与下四分位数之差

反映了中间50%数据的离散程度

不受极端值的影响

用于衡量中位数的代表性

③数值型数据:方差和标准差(应用最广的离散程度的测度值)

极差:一组数据的最大值与最小值之差,容易受极端值的影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,引而不能准确描述出数据的分散程度

平均差:各变量值与其平均数离差的绝对值的平均数,以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度就越大。为了避免离差之和等于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差

方差:是各变量值与其平均数离差平方的平均数,是实际中应用最广泛的离散程度的测度值,因此它能准确地反映出数据的离散程度

标准差:是方差的平方根,具有量纲,与变量值的计量单位相同,实际意义比方差清楚

④相对离散程度:离散系数

3.相对位置的度量

①标准分数

是指变量值与其平均数的离差除以标准差后的差

可以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置

②经验法则

当一组数据对称分布时

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

约有99%的数据在平均数加减3个标准差的范围之内

③切比雪夫不等式

如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用

切比雪夫不等式提供的是下界,也就是“所占比例至少是多少”

对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k^2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数

4.相对离散程度:离散系数

标准差与其相应的均值之比

对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响

用于对不同组别数据离散程度的比较

5.集中趋势和离散趋势的度量

集中趋势:指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在(描述集中趋势所采用的测度值分为:众数,中位数,分位数,平均数)

离散趋势:反映的各变量值远离其中心值的程度,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率,四分位差,方差和标准差,此外还有极差,平均差以及测度相对离散程度的离散系数

6.偏态

数据分布对称性的测度

偏态数据 = 0:对称分布

偏态数据 > 0:右偏分布

偏态数据 < 0:左偏分布

偏态系数越接近0,偏斜程度就越低

7.峰态

数据分布扁平程度的测度

峰态系数 = 0:扁平峰度适中

峰态数据 < 0:扁平分布

峰态数据 > 0:尖峰分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84457.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pikachu靶场-4 SQL注入漏洞

SQL注入漏洞 在OWASP发布的TOP 10 中&#xff0c;注入漏洞一直是危害排名第一的漏洞&#xff0c;其中主要指的是SQL Inject漏洞。 一个严重的SQL注入漏洞&#xff0c;可能会直接导致一家公司破产&#xff01; 数据库输入漏洞&#xff0c;主要是开发人员在构建代码时&#xf…

基于人眼视觉模型,实现码率、质量、成本的最优均衡

将编码器的优化目标从经典的保真度最高&#xff0c;调整为「主观体验最好」。 视觉是具有 「掩蔽效应」 的。 通俗地说&#xff0c;人眼作为图像信息的接收端&#xff0c;并不能精准捕捉到图像画面的所有变化。 例如&#xff0c;人眼对于画面中亮度的变化、静止的图像、画面整…

算法竞赛入门【码蹄集进阶塔335题】(MT2126-2150)

算法竞赛入门【码蹄集进阶塔335题】(MT2126-2150&#xff09; 文章目录算法竞赛入门【码蹄集进阶塔335题】(MT2126-2150&#xff09;前言为什么突然想学算法了&#xff1f;为什么选择码蹄集作为刷题软件&#xff1f;目录1. MT2126 奇偶序列2. MT2127 数组扦插3. MT2128 sort4. …

运放常见应用电路,有图有公式-运算放大器--点赞

声明&#xff1a; 本号对所有原创、转载文章的陈述与观点均保持中立&#xff0c;推送文章仅供读者学习和交流。文章、图片等版权归原作者享有&#xff0c;如有侵权&#xff0c;联系删除。 参考原文&#xff1b;《运放常见应用电路&#xff0c;有图有公式&#xff0c;建议收藏…

机器学习学习笔记(1)

字典特征提取 第一列表示北京 第二列表示上海 第三列表示深圳 第四列表示温度 前面三列 是的话用1 不是的话用0 什么时候用稀疏矩阵&#xff1a;比如上面这种情况当你的城市很多的情况下 那这样就会出现大量的0 而系数矩阵只存储不是0的位置 可以节省大量空间 为什么采用这种…

中国算力网络铺开,竟是运营商走在前列?

明敏 发自 凹非寺量子位 | 公众号 QbitAI中国算力格局&#xff0c;已悄然发生改变。今年&#xff0c;在一批云厂商的积极布局下&#xff0c;一座座算力中心建成落地&#xff0c;坐标却纷纷绕开东南沿海和一线城市。成都、张北、乌兰察布、重庆……这种趋势概括起来就一句话&…

spring framework IoC 容器接口体系结构概述

目录BeanFactory体系结构BeanFactory 主要接口&#xff0c;可分为三级&#xff1a;BeanFactory 主要实现类&#xff1a;BeanFactory 相关接口和实现类&#xff1a;主要知识点ApplicationContext体系结构ApplicationContext 主要接口&#xff0c;可分为三级&#xff1a;二级接口…

[kerberos] kerberos 认证详解

什么是kerberos认证&#xff1f; kerberos 认证是一种用于验证通信双方身份的网络协议。即帮助客户端和服务端证明 我是我自己 &#xff0c;从而使得通信双方可以完全信任对方身份 kerberos 角色组成&#xff1f; 客户端&#xff08;client&#xff09;&#xff1a;发送请求的…

macOS/Linux如何开机自动挂载/卸载磁盘

不管是Linux还是基于Unix的macOS&#xff0c;挂载磁盘可以使用mount命令进行磁盘的挂载。 挂载的一般状态&#xff1a; 查看磁盘状态挂载磁盘读写磁盘 最后是卸载磁盘。 macOS和Windows类似&#xff0c;移动存储一般会自动挂载&#xff1b;部分Linux发行版本&#xff0c;也…

数据结构与算法(Java版) | 关于以上几个经典算法面试题的一个小结

为了让大家明白算法的重要性&#xff0c;以上我就举了几个经典的算法面试题&#xff0c;我的目的也很简单&#xff0c;就是希望引起大家对算法的一个兴趣。 之所以在正式讲解数据结构与算法之前引出这几个经典的算法面试题&#xff0c;是因为我想告诉大家如下三点。 算法非常…

一文看懂MySQL的explian执行计划

表&#xff1a; 数据&#xff1a; 例如&#xff1a;explain select * from t where a 2; 各个字段解释&#xff1a; select_type 表示查询中每个 select 子句的类型&#xff08;简单 OR 复杂&#xff09; type 对表的访问方式&#xff0c;表示 MySQL 在表中找到所需行的方式…

[DT框架使用教程01]如何在DT框架中创建插件

[DT框架使用教程01]如何在DT框架中创建插件 DT框架代码地址&#xff1a; https://github.com/huifeng-kooboo/DT 由于国内访问速度的问题 也可以访问gitee的地址: https://gitee.com/huifeng_github/DT DT框架是基于QT框架衍生出的组件化框架。 对于想具体了解DT框架的同学&…

GO语言基础介绍

go语言的GMP模型&#xff08;协程并发模型&#xff09;&#xff0c;P是go语言本身内部实现的调度器&#xff0c;它是基于协程队列的&#xff0c;协程在调度器面前就类似一个个独立的任务&#xff1b;P一般数量上是处理器内核数。Process本身有调度和创建M的能力&#xff0c;它会…

Web3中文|迪士尼前任CEO回归,能否带领迪士尼开辟web3之路?

据国外媒体报道&#xff0c;11 月 21 日&#xff0c;当地时间周日晚间&#xff0c;迪士尼宣布首席执行官&#xff08;CEO&#xff09;鲍勃 查佩克&#xff08;Bob Chapek&#xff09;离职&#xff0c;而其前任鲍勃 伊格尔&#xff08;Bob Iger&#xff09;将重返迪士尼CEO一职…

Navicat 16 和表空间 - Part 2

如何运作 "What is it? Its it" - Epic, Faith No More 欢迎回到这个关于在 Navicat 16 中使用表空间的系列。第 1 部分介绍了表空间的一些优点&#xff0c;包括可恢复性、轻易添加更多表、自动存储管理以及在隔离缓冲池中数据以提高性能或内存利用率。而第二部分…

Spring boot 3 GraalVM Native Image

Spring boot 3 && GraalVM Native Image 什么是 GraalVM? GraalVM is a high-performance JDK designed to accelerate the execution of applications written in Java and other JVM languages while also providing runtimes for JavaScript, Python, and a numb…

Seata模式-tcc

Seata模式目录概述需求&#xff1a;设计思路实现思路分析1.tcc模式2.一阶段 prepare 行为参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full busy&#xff0c;skip hardness,make a better result,wait for change,c…

qiankun 部署微前端-vue2 (二)

对于基本的部署问题&#xff0c;也可以去官网查找答案&#xff1a; 常见问题 - qiankun 这里主要记录在部署过程中遇到的问题 一、路由权限问题 无论主应用路由还是子应用中的路由&#xff0c;都会涉及权限问题&#xff0c;并不是每个路由路径对任何角色都是可见&#xff0…

Linux学习-83-MySQL安装过程

17.12 MySQL安装 作为LAMP架构的后端&#xff0c;是一款流行的开源关系数据库系统。在企业网站、业务系统等应用中&#xff0c;各种账户信息、产品信息&#xff0c;客户资料、业务数据等都可以存储到MySQL数据库&#xff0c;其他程序可以通过SQL语句来查询&#xff0c;更改这些…

〖产品思维训练白宝书 - 产品思维认知篇①〗- 产品思维能够为我们带来多大的价值?

大家好&#xff0c;我是 哈士奇 &#xff0c;一位工作了十年的"技术混子"&#xff0c; 致力于为开发者赋能的UP主, 目前正在运营着 TFS_CLUB社区。 &#x1f4ac; 人生格言&#xff1a;优于别人,并不高贵,真正的高贵应该是优于过去的自己。&#x1f4ac; &#x1f4e…