本文内容来自数学建模清风老师的课件,是个人学习笔记,不保证完全正确,在此推荐学习清风老师视频讲解:清风建模算法、编程、写作培训https://www.bilibili.com/video/BV1DW411s7wi/?p=3&wxfid=o7omF0atg6R7pnBLLqfBx0B-rjBU
多元线性回归分析分类
线性回归、
0‐1
回归、定序回归、计数回归和生存回归
本文我们主要学习线性
回归。
回归的思想
第一个关键词:相关性
相关性不等于因果性,因为严格的因果关系难以探究,因此我们通过回归分析,研究相关关系。
第二个关键词:Y
Y
是什么?俗称
因变量
。取义,因为别人的改变,而改变的变量。
在实际应用中,
Y
常常是我们需要研究的那个核心变量。
1
)经济学家研究经济增长的决定因素,那么
Y
可以选取
GDP
增长率
(连续
数值型变量)。
2
)
P2P
公司要研究借款人是否能按时还款,那么
Y
可以设计成一个二值变
量,
Y=0
时代表可以还款,
Y=1
时代表不能还款
(
0‐1
型变量)。
3
)消费者调查得到的数1表示非常不喜欢,
2
表示有点不喜欢,
3
表示
一般般,
4
表示有点喜欢,
5
表示非常喜欢)
(定序变量)。
4
)管理学中
RFM
模型:
F
代表一定时间内,客户到访的次数,次数其实就
是一个非负的整数。
(计数变量)
5
)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的
观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王
60
岁,
现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接
记他的寿命为
60+
,那这种数据就是截断的数据)
(生存变量)
第三个关键词:X
Y 是因变量(因为别人的改变,而改变的变量)。
而 X是用来解释Y的相关变量,所以X被称为自变量。
当然,另一套定义方法是:X为解释变量,Y为被解释变量。
回归分析的任务就是,通过研究X 和 Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
回归分析的分类
类型 | 模型 | Y的特点 | 例子 |
线性回归 | OLS\GLS(最小二乘) | 连续数值型变量 | GDP、产量、收入 |
0-1回归 | logistics | 二值变量(0-1) | 是否违约、是否得病 |
定序回归 | probit定序回归 | 定序变量 | 等级评定(优良差) |
计数回归 | 泊松回归(泊松分布) | 计数变量 | 每分钟车流量 |
生存回归 | Cox等比例风险回归 | 生存变量(截断数据) | 企业、产品的寿命 |
数据的分类
横截面数据
:
在某一时点收集的不同对象的数据。
例如:
1
)我们自己发放问卷得到的数据
2
)全国各省份
2018
年
GDP
的数据
3
)大一新生今年体测的得到的数据
时间序列数据:
对同一对象在不同时间连续观察所取得的数据。
例如:
1
)从出生到现在,你的体重的数据(每年生日称一次
)
。
2
)中国历年来
GDP
的数据。
3
)在某地方每隔一小时测得的温度数据。
面板数据:
横截面数据与时间序列数据综合起来的一种数据资源。
例如:
2008‐2018
年,我国各省份
GDP
的数据。
不同数据类型的处理方法
数据类型 | 常见建模方法 |
横截面数据 | 多元线性回归 |
时间序列数据 | 移动平均、指数平滑、ARIMA、GARCH、VAR、协积 |
面板数据 | 固定效应和随机效应、静态面板和动态面板 |
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类
学生在中级计量经
济学中才会学到的模型。
横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变
量与因变量之间的相关关系以及自变量的重要程度。
时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,
大家需要选择合适的模型对数据进行建模。
四类模型回归系数的解释
1
、
一元线性回归
:
𝑦
=
𝑎
+
𝑏𝑥
+
𝜇
,
x
每增加
1
个单位,
y
平均变化
b
个单位;
2
、
双对数模型
:
𝑙𝑛𝑦
=
𝑎
+
𝑏𝑙𝑛𝑥
+
𝜇
,
x
每增加
1%
,
y
平均变化
b%
;
3
、
半对数模型
:
𝑦 ൌ 𝑎 𝑏𝑙𝑛𝑥
+
𝜇
,
x
每增加
1%
,
y
平均变化
b/100
个单位;
4
、
半对数模型
:
𝑙𝑛𝑦 ൌ 𝑎 𝑏𝑥
+
𝜇
,
x
每增加
1
个单位,
y
平均变化
(100b)%