一、分类变量的统计描述与参数估计
1、分类变量的统计描述指标体系
1)频数分布情况描述
各个类别的样本数和所占比例分别称为频数(绝对频数)和百分比(构成比)。
累计频数是指本类别及较低类别出现的次数之和,累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。
2)集中趋势的描述
当集中趋势显著时,用众数(Mode)作为总体的代表值。
所谓众数,使之出现次数最多的那个数。如果只有一个众数称为单众数,多于一个的称为复众数。
3)使用相对数进行深入描述
(1)比(Ratio):比指的是两个有关指标之比A/B,用于反映两个指标在数量/频数上的大小关系。
(2)构成比(Proportion)
分观察对象为K部分(A1、A2、……Ak),其中某一个/多个部分的例数占总例的比例未构成比,它描述某个事物内部各构成部分所占的比重。
(3)率(Rate)
率是一个时间概念,或者说具有速度、强度含义的指标,用于说明某个时间发生的频率或强度。
2、分类变量的联合描述
当一共有两个分类变量时,这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表,也称列联表。
当观察的现象与两个因素有关时,如某种服装的销量受价格和居民收入影响;某种产品的生产成本受原材料价格和产量的影响等等,交叉列联表分析可以比较好的反映出两个因素之间有无关联性,两因素与现象之间的相关关系。因此,数据交叉列联表分析主要包括两个基本任务: 1、根据收集的样本数据,产生二维或多维交叉列联表; 2、在交叉列联表的基础上,对两两变量间是否存在关联性进行检验。
3、分类变量的统计描述实例
1)使用频率过程进行描述
“分析”---“描述统计”--“频率"
2)使用交叉表过程进行描述
4、多选题的统计描述
1) 多选题的描述指标体系
在多选题分析中比较特别的描述指标有:
(1)应答人数:是指选择了本项人数。
(2)应答人数百分比(Percent of Cases):选择该项的人占总人数的比例。
(3)应答人次:选择本选项的人次。
(4)应答次数百分比(Percent of Responses):在作出的选择中,选择该项的人数占总次数的比例。
2)多选题的频数列表
前提:提前定义好 多重响应集
3)多选题的列联表分析
5、分类变量的参数估计
1)二项分布的参数估计(了解)
当研究对象属于二项总体时,可以用二项分布来检验假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下:
1、提出假设
2、计算统计量值和p 值
3、根据p 值作出统计判断。
总结
本章主要针对分类变量的统计描述与参数估计
主要解决问题:
1)分类变量的统计描述指标体系、联合描述及实例
2)多选题的统计描述及分类变量的参数估计