研究自变量X与因变量Y的影响关系时,回归模型是常用的方法。但是不同的回归模型其适用条件不同、种类繁多。SPSSAU目前提供了40多种不同的回归模型,如何选择适合的模型成为关键问题;此外,如何有效分析回归模型的结果也是研究中的重要步骤。接下来就以上相关知识进行汇总和整理。
一、40+回归模型汇总
回归模型分析自变量X对因变量Y的影响关系,通过建立模型可以预测Y值,揭示自变量对Y的影响及各自变量的影响程度。 目前在SPSSAU系统中,回归模型包含以下40多种,一句话描述及说明如下:
那么面对如此多的回归模型,第一次进行实证分析研究影响关系的同学们应该如何选择呢?
二、回归模型选择
实证分析影响关系研究时,回归模型的选择通常需要结合X和Y的数据类型和个数进行确定,虽然上文列出了40多种回归模型,但其实日常研究中最常用的回归模型其实就那么几个,接下来以常用回归模型选择为例进行说明。 常用回归模型初步选择方法如下:
(1)因变量为定量数据(仅1个)
当因变量为定量数据且只有1个时,一般多元线性回归模型比较常用。线性回归模型是当前使用最为成熟,研究最多的回归分析方法之一。若数据为面板数据,则使用面板模型进行分析。 线性回归模型有很多需要满足的前提条件(如线性、独立性、正态性、方差齐等),如果不满足这些假定或者条件可能会导致模型使用出错,那么此时就有对应的其它回归模型出来解决这些问题,因而跟着线性回归后面又出来很多其他回归分析方法。 例如:
-
如果自变量间出现多重共线性问题(VIF值大于10),那么可以使用岭回归、lasso回归、逐步回归等回归模型;
-
如果X个数非常多,想要模型自动找出对Y有影响的X,可以使用逐步回归模型;
-
若数据中有异常值,可以使用Robust回归模型;
-
如果要对X进行分层或者分组,则使用对应的分层回归或者分组回归;
-
若研究的数据不满足线性关系,则选择对应的非线性回归模型,如SPSSAU中提供的曲线回归和非线性回归方法中提供60多种非线性关系模型。
(2)因变量为定量数据(多个)
在进行X对于Y的影响关系研究时,如果研究人员希望将多个Y同时放一起分析时,可以使用PLS回归模型。除此之外,若要研究多个X与多个Y之间的影响关系还可以使用路径分析或者结构方程模型。路径分析只研究变量间的影响关系,而结构方程模型同时研究变量间的影响关系和测量关系。
(3)因变量为定类数据
当因变量为定类数据时,一般logistic回归模型比较常用。
-
因变量为二分类变量时,比如“买&不买”、“阳性&阴性”,选择二元logistic回归分析;
-
因变量为多分类变量时,比如村长候选人“甲、乙、丙”,选择多分类logistic回归分析;
-
因变量为多分类变量且有序时,比如“不满意、一般、满意”,选择有序logistic回归分析。
以上为比较常见的回归模型初步选择的说明,其中提到的回归方法都是在实际研究中使用频率较高的。
三、其他应用场景分类
上文已经对Y为定量数据、Y为定类数据时一些常用的模型进行了说明。下面对其余的三类应用场景——问卷研究、医学研究、空间计量研究常用回归模型进行介绍。
1、问卷研究
通过量表问卷收集的数据,常用的回归模型有调节作用、中介作用、调节中介、路径分析、结构方程模型,它们不是严格意义上的回归模型,但是本质也是研究影响关系的模型。
①调节作用
调节作用是研究X对Y的影响时,是否会受到调节变量Z的干扰;比如开车速度(X)会对车祸可能性(Y)产生影响,这种影响关系受到是否喝酒(Z)的干扰,即喝酒时的影响幅度,与不喝酒时的影响幅度 是否有着明显的不一样。
②中介作用
中介作用是研究X对Y的影响时,是否会先通过中介变量M,再去影响Y;即是否有X->M->Y这样的关系;比如工作满意度(X)会影响到创新氛围(M),再影响最终工作绩效(Y)。
③调节中介
调节中介作用同时考虑中介变量和调节作用,其核心是中介作用,基于中介作用基础上再进一步讨论调节作用。比如X->M->Y这条中介路径存在,即说明具有中介作用。接着在进一步分析条件中介作用,即在另外一个调节变量Z取不同水平时(通常分为3个水平,低水平,平均水平,高水平),中介作用的幅度(也称条件间接效应)情况如何。
④路径分析
研究模型影响关系,用于对模型假设进行验证。比如下图的模型框架:希望研究工作条件,人际关系对于公司满意度的影响;同时还希望研究公司满意度和机会感知对于离职倾向的影响,路径有一共有4条(即4对影响关系)。
⑤结构方程模型
结构方程模型SEM是一种多元数据分析方法,其可用于研究多个潜变量之间的影响关系情况。结构方程模型共包括两部分结构,分别是测量关系和影响关系(路径分析只有影响关系)。
2、医学研究
医学领域常用的回归模型有Cox回归、条件logit回归、Deming回归、Possion回归、负二项回归等。
①Cox回归
是一种研究影响生存时间的方法,由于生存时间数据的特殊性,因而此模型的因变量会涉及两项,分别是生存时间和生存状态。
②条件logit回归
医学研究的病例-对照研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组。各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,常见是1:M(M <=3),即1个病例和1或2或3个对照匹配。也或者在使用过计量研究里面的PSM倾向得分匹配,也有可能使用到条件logit回归。
③Deming回归
可用于研究两种仪器(或者两种测量方法等)是否有着一致性(相似的测量值)。Deming回归与普通线性回归(OLS回归)的原理上有所不同,普通线性回归时,只有Y会包含测量误差,但是Deming回归时X和Y均会包含测量误差。
④Possion回归
如果数据符合Poisson分布时(数据满足平稳性、独立性、普通性),而又想研究X对于Y的影响(Y呈现出Poisson分布);此时则需要使用Poisson回归,而不是使用常规的线性回归等。
⑤负二项回归
针对Possion回归来讲,如果计数资料不适合Poisson分布时,尤其是数据过离散时,此时使用负二项回归分析更合适。
3、空间计量研究
空间计量研究主要涉及的回归模型有:空间ols回归、空间滞后SLM、空间误差SEM、空间滞后误差SAC、空间杜宾SDM、空间杜宾误差SDEM、自变量空间滞后SLX、空间面板模型、似不相关回归SUR。 空间计量研究入门教程可以查看下面这篇文章:
空间计量小白教程 | 空间概念、权重矩阵、空间计量模型、软件操作等
四、回归模型操作与分析
以最常用的多元线性回归模型为例,介绍如何使用SPSSAU软件快速完成模型构建与分析。
(1)SPSSAU软件操作
上传数据至SPSSAU系统,在分析页面左侧选择分析方法->拖拽数据至右侧对应分析框->点击开始分析,操作如下图:
(2)回归模型分析结果解读
SPSSAU输出多元线性回归分析结果如下:
回归分析结果解读可以参考SPSSAU表格下方的分析建议与智能分析:
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)