数据分析spss应急考试

前言

单项选择 15(项)*2（分）=30

判断题 10*1 = 10

计算题 2*10
案例分析题目(考实验内容) 总四十分，分值不等
- 老师重点强调了
- 回归分析
- 因子分析
- 方差分析
- 参数、非参数检验
  - 2独立样本的非参数检验应该用什么方法
  - 多独立样本的应该用什么方法
  - 配对样本的应该用什么方法
  - 买会？，vr？，中位数……适用于那些数据
- 抽样
  - 给你一个案例，你可不可以写出抽样思路
    - 先是整群还是先是分层
    - 简单随机抽样
spss的logistic回归不考
判别分析不考
spss的线性回归分析中的曲线分析也不考

软件分析

你的spss的格式它能读那些的考一些选择判断

spss软件概述

利用spss进行数据分析一般经过：
建立数据文件、加工整理数据、分析数据、解释分析结果四个阶段

spss运行方式菜单式进行操作

spss数据文件建立和管理

spss的数据文件是一个有结构的，包含了变量视图和数据视图

唯一标识变量的是变量名

变量名标签

是对变量名做一个解释说明

变量值标签

对变量所取值的一些解释说明，增强分析结果的可视性
比如在年纪录入时：用 1 表示大一年纪、用2表示大二年纪

计量尺度(Measurement)

数值型（定距）
定序型（有固有大小或高低顺序）
定类型（无固有大小或高低顺序，分类）

变量测量包含了标度测量、有序测量与名义测量三种

其中标度测量对应定量变量，有序测量对应定序，名义测量对应定类变量。

数据的录入

一行就是一个个案

读取文本格式数据文件有读取固定格式和自由格式两种，自由格式必须要有分隔符

spss数据的保存

 spss 数据默认后缀 .sav
 spss结果文件默认后缀是 .spv

读取其他格式的数据文件

.sav .zsav .sys .port .bdf .dat .txt .csv

不能读.ppt

数据文件的合并

* 恒向合并
* 纵向合并
* 按照关键字关键字的升序排序合并用 横向合并

数据预处理

数据的排序

排序的目的是找到数据中最大值&最小值，进而计算数据的全距和离散程度

排序分为：单值排序多重排序

那些属于定量变量
- 数值型的比如：年龄、合格率、身高、工资
那些属于定性变量
- 比如：专业、性别、职称

个案排秩和变量排序作用是不一样的

想知道某一个观测在已知条件下观测的位置，而又不希望打破数据现有的排序，可以用个案排秩

变量的计算

——通过现有变量得到新的变量

变量计算是针对所有个案的，每个个案都有自己的计算结果。

重新编码为相同的变量

重新编码为不同的变量

为了某个数据只在一个组中出现一次、编码和分区都有一个区间

数据选取的基本方式

1. 选取全部数据

2. 按指定条件选取

3. 随机抽样：（近似抽样、精确抽样） 
 * 精确抽样：用户给定两个参数：希望选取的个案数、在前几个个案中选择
4. 选取某区域样本
 * 选取指定范围内的所有个案，适用于 **时间序列**
5. 使用过滤个案，对**使用过滤个案，是对缺失值进行一个过滤**

对于计数的数据分析要进行加权的处理

统计学依据数据的计量尺度将数据分成三类**：定量、定序、定类**

两大类：定量（定距、定比）、定性（定序、定类）

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6CpO4Uzl-1676652396847)(C:\Users\Admin\AppData\Roaming\Typora\typora-user-images\image-20230216165430276.png)]$

行列互换是数据的转置

spss基本统计分析

刻画度量集中趋势的有

* **均值**
* **中位数**
* **众数**

集中趋势：数据想中心值靠拢的程度

刻画离散趋势有

标准差
极差
方差

离散趋势：数据远离中心值的程度

度量分布形态有

偏度
- 于正态分布而言小于0 左偏，大于 0 右偏
分度
- 大于0 （有时候和3做出比较、看公式中有无做减3的处理）比正太分布陡峭，小于 0 比正态分布要平缓

分布形态：描述数据陡峭程度、是否对称等

频数分析

——用图标的形式对数据做一个简单的描述

频数：是指变量落在某个区域的次数

频数分析中出现的图表有哪些：条形图、饼图、直方图（可以通过直方图看，分布是否呈现正态分布）

条形图适用于–定序、定类变量分析
饼图，研究占比
直方图，适用于–定距型变量分析

变量的计算尺度

定类（比如表示性别）：只能计次

定序（一件产品的满意度，如果用1表示非常满意，2表示比较满意，3表示中等满意，4表示比较不满意，5表示非常不满意）：计次、排序

定距（比如温度之类的）：计次、排序、加减

定比（体重）：计次、排序、加减、乘除

下列哪些选项是不属于频数分析中统计量的卡方

百分位数
集中趋势
离散趋势
分布形态
卡方

交叉分组下的频数分析

——针对多变量

当我们要研究变量 $\geq 2$ 个变量时使用交叉分组

边缘分布

上表中的年龄变量称为行变量（Row），血压称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数和各种百分比。
         474人中，低血压、正常、高血压的人数分别为95、232、147，构成的分布称为交叉列联表的列边缘分布；
         30岁以下、30-49岁、50岁以上的人数分别为98、179、197，构成的分布称为交叉列联表的行边缘分布；
         98个低血压的人中各年龄段的人数分别是27，37，31，这些频数构成的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。

交叉连表的卡方检验

步骤:

建立原假设
- 假设行变量与列变量独立
选择和计算检验统计量
计算观测值和临界值
结论和决策
- 利用卡方统计量的这个值和临界值进行比较
- 观测值 $>$ 临界值，实际分布与期望分布过大拒绝原假设
- <,反之同意

卡方统计量观测值的大小取决于两个因素：第一：列联表的单元格子数；第二：观测频数与期望频数的总差值。

多选项分析

对应于多选项分析之前要进行分解，分解有 多选项二分法（变量取值 0 or 1 ）和多选项分类法（对于多选项问题可以选几个答案）

抽样

应该会考一道分析题：

多阶段抽样（重要、一定要理解各种抽样意义）

要做这道题你首先要理解不同抽样的意义：

概率抽样

简单随机抽样：从总体N个单位中随机地抽取n个单位作为样本，每个单位入抽样本的概率是相等的
分层抽样：将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本
整群抽样：将总体中若干个单位合并为组(群),抽样时直接抽取群，然后对中选群中的所有单位全部实施调查
- 例子：一个年纪 1000人，要抽样500个人他们的数学成绩进行调查
  将1000人分为20个班
  因此我们只需选出10个班进行调查
系统抽样：.将总体中的所有单位(抽样单位)按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其它样本单位
- 先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k…等单位

例题

在这里插入图片描述

抽样分布

正态分布和均值、标准差有关

三大分布-和自由度有关

$\mathcal{X}^2$ 分布
$f$ 分布
$t$ 分布

中心极限定理

设从均值为 $\mu$ ，方差为 $\sigma^2$ 的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为 $\mu$ 、方差为 $\sigma^2/n$ 的正态分布

对于方差和均值（重要）

在这里插入图片描述

标准差就是方差开根号

卡方分布(服从行-1*列-1的自由度)、t分布、f分布是和自由度有关的

正态分布和自由度是无关的

判断数据是否是正态分布用 p-p图（概率-概率图） Q-Q图（分位数-分位数图），带有正态曲线的直方图去看

正态分布分成三类我们利用严格意义上的正态分布(通过KS、KW检验)，近似正态（KS、KW检验的没有通过、但没有严重的偏态）

参数检验

假设检验

步骤

确定 $h_0$ 假设和备择假设$ h_1$
- 单样本t检验：验一个样本平均数与一个已知的总体平均数的差异是否显著， $h_0$ 不显著， $h_1$ 相反
- 两个独立样本t检验：检验两个样本平均数与其各自所代表的总体的差异是否显著， $h_0$ 不显著， $h_1$ 相反
- 两个配对样本t检验：可视为单样本t检验的扩展，不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差
选择检验统计量、在 h0条件下确定检验统计量的分布
- 使用t检验，就假设服从t分布
- 算出概率值，选取显著性水平 $\alpha$
如果概率值和a进行比较 概率值 > $\alpha$ ,不拒绝h0，概率值< $\alpha$ ,拒绝

假设检验中的两类错误

第一类（弃真错误）
- 原假设为真时拒绝原假设
- 第一类错误的概率为 $\alpha$ (显著性水平）
第二类错误（取伪错误）
- 原假设为假时接受原假设
- 第二类错误的概率为 $\beta$

单样本t检验：数据总体要近似服从正态分布

两独立样本t检验：数据总体要近似服从正态分布 + 两个样本相互独立

两配对样本t检验：数据总体要近似服从正态分布 + 两个配对样本

比如：你要求减肥茶有没有用你要得到

喝减肥茶之前的样本和减肥茶之后的样本

方差分析

方差分析是一个假设参数检验的范畴，是研究是均值的差异，它有两个前提：样本的总体正态或近似正态、各总体的方差应该相同

方差分析研究的并不是方差，而是均值的变异，即推断多个总体的均数是否有差别。它是一个多独立样本检验

不管是单因素还是多因素，它其实研究的是一个或多个控制变量对一个观测变量的一个影响(我们的观测变量只有一个)

观测变量是一个连续性的数值性变量

这个控制变量是一个分类型的变量

(我们把不同的分类称之为不同的水平)

单因素，多因素、协方差分析它选择的统计量是什么F统计量

检验统计量：总变差=组间差异+组内差异

	总平方和	自由度	均方	F
组间	A	k-1	A/(k-1)	$\div B/(n-k)$
组内	B	n（总的个案数）-k	B/(n-k)	无
总计	A+B	n-1	无	无

进行决策如果F的概率P > $\alpha$ ,说明控制变量在不同水平下对观测变量不产生了显著影响，概率值< $\alpha$ ,说明控制变量在不同情况下产生了显著影响

非参数检验

肯定会考案例分析

参数检验 $V S$ 非参数检验

异

参数检验	非参数检验
数据总体要近似服从正态分布	所有数据都可以用
灵敏度更高	灵敏度比参数检验低
参数检验要利用到总体的信息（总体分布、总体的一些参数特征如方差），以总体分布和样本信息对总体参数作出推断	非参数检验不需要利用总体的信息（总体分布、总体的一些参数特征如方差），以样本信息对总体分布作出推断。

同

都是统计分析方法的重要组成部分