一.导论
统计学是通过收集,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识
统计的本业是消化数据,并产生有营养的结果
数据搜集:调查与试验
数据整理:分组
数据展示:图和表
数据分析:回归分析
1.统计与大数据
统计学是大数据的三大基础学科之一
统计学注重的是方式方法,而大数据则更关注于整个数据价值化的过程
大数据不仅需要统计学知识,还需要具备数学知识和计算机知识
统计学为大数据进行数据价值化奠定了一定的基础
2.统计与数学
数学研究的是抽象的数量规律,统计学则是研究具体的实际现象的数量规律
数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据
统计学与数学研究中所使用的逻辑方法不同:数学研究所使用的主要是演绎;统计学则是演绎与归纳相结合,占主导地位的是归纳
3.分类
描述统计是基础,推断统计是主体
①描述统计
收集/整理/展示数据,目的是描述数据特征和找出数据的基本规律
内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和展示,进而通过综合,概括与分析,得出反映所研究现象的一般性特征
②推断统计
参数估计/假设检验,目的是对总体特征做出推断
研究如何利用样本数据对总体的数量特征进行推断的统计学分支
研究者所关心的是总体的某些特征,但总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题
其内容包括:抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等
4.统计数据类型
①按计量尺度(定性数据:分类/顺序数据,定量数据:数值型数据)
分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的
顺序数据:只能归于某一有序类别的非数字型数据,也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的
数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据
②按收集方法
观测数据:通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的
实验数据:在实验中控制实验对象而收集到的数据,自然科学领域的数据大多是实验数据
③按时间状况
截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况
时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况
5.基本概念
总体:所研究的全部个体(数据)的集合,其中每一个个体也称为元素
样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量
参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
统计量:用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数
变量:说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈现出差别或变化
二.数据的收集
1.数据的来源
间接来源:系统内部,系统外部
直接来源:调查数据,实验数据
2.调查方法
①概率抽样
也称为随机抽样,特点是随机,每个单位被抽中的概率是已知的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
分类:简单随机抽样,分层抽样,整群抽样,系统抽样,多阶段抽样
简单随机抽样:从总体N个单位中随机抽取n个单位作为样本,每个单位入抽样本的概率是相等的,这是最基本的抽样方法,是其它抽样方法的基础。特点是简单直观,在抽样框完整时可直接从中抽取样本,用样本统计量对目标量进行估计比较方便。局限性是当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其它辅助信息以提高估计的效率
分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立随机地抽取样本。优点是保证样本的结构与总体的结构比较相近,从而提高估计的精度,组织实施调查方便,既可以对总体参数进行估计,也可以对各层的目标量进行估计
整群抽样:将总体中若干单位合并为组(群),抽样时直接抽取群,然后对选群中的所有单位全部实施调查。特点是抽样时只需群的抽样框,可简化工作量,调查的地点相对集中,节省调查费用,方便调查的实施,缺点是估计的精度较差
系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位
多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干单位进行调查
②非概率抽样
抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查
分类:方便抽样,判断抽样,自愿抽样,滚雪球抽样,配额抽样等
方便抽样:调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。优点是容易实施,调查成本低。缺点是样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体
判断抽样:研究人员依据经验,判断和对研究对象的了解,有目的选择一些单位作为样本。是主观的,样本选择的好坏取决于调研者的判断,经验,专业程度和创造性。抽样成本比较低,容易操作。样本是人为确定,没有依据随机的原则,调查结果不能用于推断总体
自愿抽样:被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。自愿样本与抽样的随机性无关,样本是有偏的,不能依据样本的信息推断总体
滚雪球抽样:先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。优点是容易找到那些属于特定群体的被调查者,调查的成本也是比较低
配额抽样:先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位;操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似;抽取具体样本单位时,不是依据随机原则,属于非概率抽样
3.实验方法
实验组和对照组
实验中的若干问题
实验中的统计
4.数据的误差
抽样误差:由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小的因素(样本量的大小,总体的变异性)
非抽样误差:除抽样误差以外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有调查之中(概率抽样,非概率抽样,全面性调查)
三.数据的概括性度量
1.集中趋势的度量
集中趋势是一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据,选用哪一个测度值来反映数据的集中趋势要根据所掌握的数据的类型来确定
①分类数据:众数
一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可以用于顺序数据和数值型数据
②顺序数据:中位数和分位数
中位数:排序后处于中间位置上的值;不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;各变量值与中位数的离差绝对值之和最小
四分位数:排序后处于25%和75%位置上的值,不受极端值的影响
③数值型数据:平均数
也称为均值,集中趋势的最常用的测度值;易受极端值的影响;有简单平均数和加权平均数之分;根据总体数据计算的叫做平均数,根据样本数据计算的叫做样本平均数
④众数,中位数和平均数之间的比较
三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数处于一组数据中间位置上的值,而平均数则是全部数据的算术平均
如果数据的分布是对称的,众数,中位数,平均数必定相等
如果数据是左偏分布,说明存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值影响,三者关系:众数 > 中位数 > 平均数
如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数 < 中位数 < 平均数
⑤应用场合
众数:不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用
中位数:不受极端值影响,数据分布偏斜程度较大时应用
平均数:易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用
2.离散程度的度量
①分类数据:异众比率
对分类数据离散程度的测度
非众数组的频数占总频数的比例
用于衡量众数的代表性
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差
②顺序数据:四分位差
对顺序数据离散程度的测度,也称为内距或四分间距
上四分位数与下四分位数之差
反映了中间50%数据的离散程度
不受极端值的影响
用于衡量中位数的代表性
③数值型数据:方差和标准差(应用最广的离散程度的测度值)
极差:一组数据的最大值与最小值之差,容易受极端值的影响,由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,引而不能准确描述出数据的分散程度
平均差:各变量值与其平均数离差的绝对值的平均数,以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度就越大。为了避免离差之和等于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差
方差:是各变量值与其平均数离差平方的平均数,是实际中应用最广泛的离散程度的测度值,因此它能准确地反映出数据的离散程度
标准差:是方差的平方根,具有量纲,与变量值的计量单位相同,实际意义比方差清楚
④相对离散程度:离散系数
3.相对位置的度量
①标准分数
是指变量值与其平均数的离差除以标准差后的差
可以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置
②经验法则
当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
③切比雪夫不等式
如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用
切比雪夫不等式提供的是下界,也就是“所占比例至少是多少”
对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k^2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数
4.相对离散程度:离散系数
标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
5.集中趋势和离散趋势的度量
集中趋势:指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在(描述集中趋势所采用的测度值分为:众数,中位数,分位数,平均数)
离散趋势:反映的各变量值远离其中心值的程度,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率,四分位差,方差和标准差,此外还有极差,平均差以及测度相对离散程度的离散系数
6.偏态
数据分布对称性的测度
偏态数据 = 0:对称分布
偏态数据 > 0:右偏分布
偏态数据 < 0:左偏分布
偏态系数越接近0,偏斜程度就越低
7.峰态
数据分布扁平程度的测度
峰态系数 = 0:扁平峰度适中
峰态数据 < 0:扁平分布
峰态数据 > 0:尖峰分布
四.数据的图表展示
1.数据的预处理
①数据审核
原始数据
完整性审核:应调查的单位或个体是否有遗漏,所有的调查项目或变量是否填写齐全
准确性审核:数据是否真实反映实际情况,内容是否符合实际;数据是否有错误,计算是否正确
二手数据
适用性审核:弄清楚数据的来源,数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要
时效性审核:尽可能使用最新的数据
确认是否有必要作进一步的加工整理
②数据筛选
内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除
③数据排序
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
在某些场合,排序本身就是分析的目的之一
排序可借助于计算机完成
2.品质数据的整理与显示
3.数值型数据的整理与显示
基本问题
要弄清楚所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
对分类数据和顺序数据主要是做分类整理
对数值型数据则主要是做分组整理
适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据
品质数据整理的基本过程
列出各类别
计算各类别的频数
制作频数分布表
用图形显示数据
可计算的指标
频数:落在各类别中的数据个数
比例:某一类别数据占全部数据的比值
百分比:将对比的基数作为100而计算的比值
比率:不同类别数值的比值
数据分组
是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据
数据经过分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种
单变量分组通常只适合于离散变量,且在变量值较少的情况下使用
在连续变量或变量值较多的情况下,通常采用组距分组
组距分组的步骤
①确定组数
②确定组距
③统计出各组的频数并整理成频数分布表
组距分组的原则
需遵循“不重不漏”的原则
不重:指一项数据只能分在其中的某一组,不能再其他组中重复出现
不漏:指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏
为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内
对于离散变量,我们可以采用相邻两组组限间断的办法解决“不重”问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定
缺点:组距分组掩盖了各组内的数据分布状况
4.合理使用图表
①分组数据:直方图和折线图
直方图和条形图的区别
首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列
最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据
②未分组数据:茎叶图和箱线图
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
直方图可以观察一组数据的分布状况,但没有给出具体的数值
直方图适用于大批量数据,茎叶图适用于小批量数据
③时间序列数据:线图
表示时间序列数据趋势的图形
④多变量数据:散点图,气泡图,雷达图
一张好的图表应该包括以下基本特征
显示数据
让读者把注意力集中在图表的内容上,而不是制作图表的程序上
避免歪曲
强调数据之间的比较
服务于一个明确的目的
有对图表的统计描述和文字说明
设计统计表注意的问题
首先,要合理安排统计表的结构
其次,表头一般应该包括表号,总标题和表中数据的单位等内容,总标题应该简明确切地概括出统计表的内容
再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开
最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源