计量经济学|学习笔记以及学习感悟

初级计量经济学着重于介绍基本的统计工具和经济模型，以帮助理解经济数据和经济现象之间的关系。它包括回归分析、假设检验和预测方法等内容。中级计量经济学则深入研究这些方法的理论基础和实际应用，包括更复杂的模型和技术，如面板数据分析、时间序列分析和因果推断等。中级课程还探讨了更多的计量经济学理论，如内生性问题、工具变量和因果推断的困难等。

一、回归模型

（一）常用—实证模型选择及结果解读

1.常用实证模型选择

名称	用途	功能	stata代码
OLS回归（普通最小二乘回归）	适用于连续因变量，假设因变量和自变量之间有线性关系。	最基本的线性回归模型。它试图找到一个线性方程，使得所有观察点与回归线之间的距离的平方和最小。	例: 研究教育水平《自变量)如何影响个人收入《因变量)eg y xx1 x2 x3火导出结果 reg 被解释变量解释变量控制变量 1控制变量 2yeariindustrest store regusing 主变量回归结果.rtt, replace nogap ar2 b (%6.4f)t (9%6. 4f) star(* 01 0.05 * 0.01)
分位数回归	它提供了不同分位数（如下四分位数、中位数、上四分位数）的回归系数估计。	与OLS不同，分位数回归不是最小化误差的平方和，而是关注特定分位数（如中位数）的误差。	例:研究培训项目《自变量)对员工工资(因变量)在不同工资水平(如中位数上四分位数)的影响分位数为 0.1 0.25 0.50,75 0.9，可根据研究问题自行调整5qreg y x x2 x3,9 (1.25.5.75.9 )
Probit模型	适用于需要估计某事件发生的概率的情境。	Probit模型用于处理二元因变量的情况，例如“是/否”类型的响应。它使用正态分布累积分布函数来预测二元结果的概率。	例:分析个人的某些特征《如年龄、教育水平)如影响其是否选择退休《二元因变量:退休/不退休)y为虚拟变量 01 probit y x xl x2 x3
Logit模型	它是分析二元响应变量的常用方法，尤其在医学和社会科学研究中。	类似于Probit模型，但使用的是逻辑分布函数。 Logit模型同样适用于二元因变量，如“成功/失败”。	*y为虑拟变量01 ogit y x xl x2 x3
Tobit模型:	常用于处理非负数据或有上限的数据。	用于处理有下限或上限的因变量，例如测量值不能低于零。 Tobit模型考虑了截断数据的问题，可以提供对截断数据更准确的估计	xttobit y x x x2 x3,11 (0) nolog tobit
固定效应模型	适用于研究个体（如国家、公司、个人）随时间变化的行为。	在面板数据（时间序列和横截面数据的组合）分析中常用。通过控制不随时间变化的个体特定效应，从而减少遗漏变量偏误	例:分析公司政策对员工生产力的影响，固定效应模型可以控制每个公司的特定持征《如公司文化》。设为面板数据 xtsetid year *固定效应模型 treg y xx1 x2 x3, feest sttore reg!
随机效应模型	随机效应模型更适用于个体效应被假设为随机且与其他解释变量不相关的情况。它可以提供固定效应模型无法提供的跨个体比较	也用于面板数据，但假设个体效应与解释变量无关。	例:在分析多个国家的经济增长数据时，每个国家的特定效应可能被视为随机随机效应模型 ktreg y xx1 x2 x3,reest store reg2 导出回归结果 xtreg 被解释变里var1 var2 var3. year i. industry, fe est store reg2 esttab reg1reg2 using 回以结果. rtf,replace b(%6.4f) t (%6.4f)nogapar2 star("01**0.05·.0.011

2.回归分析实证结果解读

1）相关分析
        表一展示的是变量Y与X1和X2的 Pearson相关系数结果：能够看出,Y与X1之间的相关系数为0.4574,大于0,可见二者之间呈现正向的相关关系,并且其相应的P值为.0003,小于0.05,可见在5%的显著性水平下,两个变量之间的相关程度能够很好的反映总体Y与X2的相关系数为0.2441,大于0,二者之间呈现正向的相关关系,且相应的P值为0.0672,大于0.05,小于0.10,可见在10%的显著性水平下,这两个变量之间的相关程度也能够较好的反映总体。
虽然Y与X1和X2之间存在正向的相关关系,但是要判断具体的影响程度,还需要通过构建线性回归模型进行分析。
2）多元线性回归分析
        表二展示的是回归分析的估计结果：能够看出,变量1对应的估计系数为5.09*10^(-7),经过T检验对应的统计值为3.2548,相应的P值为0.0020,小于0.05,可见在5%的显著性水平下,该自变量对因变量的影响是显著的;变量X2的估计系数为0.0001,T统计值为0.5636,相对应的P值为0.5754,大于0.05,可见在5%的显著性水平下,2对因变量Y的影响并不显著。
两个变量的经济意义解释为:在保持另一个变量不变的情况下,X1每增加一个单位,Y平均增加5.09*10^(-7)个单位;且在保持另一个变量不变的情况下,X2每增加一个单位,Y平均增加0.0001个单位。
        该方程对应的修正后的拟合优度为0.1847,与1相距较大,可见该方程的拟合程度相对较差,并且其F统计值为7.340,相应的P值为0.0015,小于0.05,可见在5%的显著性水平下自变量整体对因变量的影响是显著的。

（二）简单线性回归模型

1.简单线性回归笔记

二、时间序列模型

（一）时间序列基本定义与概念

1.时间序列—给定时间段以及每个时间点的随机变量得到一个观测值后的数值序列

# 基于聚宽接口
prices = get_price('000300.XSHG', start_date='2018-01-01', end_date='2019-12-13', frequency='daily', fields='close')
fig = plt.figure(figsize=(10, 6))
ax = fig.add_axes([0.2, 0.2, 1.2, 1.2])

ax.plot(prices, color="blue", linewidth=1.5, linestyle="-", label=r'hs300')
plt.legend(loc='upper right', frameon=False)

2.平稳性—较为宽松的条件就是使它们的统计特征保持不变

3.自相关系数—同一个时间序列内的两个不同的时间段的相关性

（二）常见的时间序列模型

1.白噪声—非常简单的一种建模时间序列的模型

2.随机游走—random walk是对白噪声的简单延伸。

3.AR、MA以及ARMA—时间序列分析中常见的模型

1）自回归模型（AR）
自回归模型是一种用于描述时间序列数据内部相关性的模型。在自回归模型中，当前时刻的数值由过去时刻的数值线性组合得到，即当前值与过去值之间存在相关性。AR模型通常表示为AR(p)，其中p代表模型中考虑的过去时刻的数量。例如，AR(1)模型表示当前值仅由一个时间步长前的值影响。

2）移动平均模型（MA）
移动平均模型是另一种用于时间序列建模的方法。在移动平均模型中，当前时刻的数值由随机误差或残差项的线性组合得到，而不是依赖于过去时刻的数值。MA模型通常表示为MA(q)，其中q代表模型中考虑的过去误差的数量。例如，MA(1)模型表示当前值仅由一个时间步长前的误差项影响。

3）自回归移动平均模型（ARMA）
自回归移动平均模型是将AR模型和MA模型结合起来的模型。ARMA模型结合了考虑过去数值相关性的自回归部分和考虑误差影响的移动平均部分。ARMA模型通常表示为ARMA(p, q)，其中p代表自回归部分的阶数，q代表移动平均部分的阶数。ARMA模型能够更灵活地捕捉复杂的时间序列数据内部结构。

（三）平稳性检验

白噪声、MA模型一定是平稳的（这里的平稳都是弱平稳）；随机游走一定是不平稳的；ARMA模型取决于其AR部分。所以唯一需要做平稳性检验的就是AR模型。

1.单位根检验—检验AR序列是否平稳，就是检验是否存在某个根大于等于1

2.ADF检验—经典的单位根检验方法

ADF检验的全称是Augmented Dickey-Fuller test，它是Dickey-Fuller（DF）检验的扩展。DF检验只能应用于一阶AR模型的情况。当序列为高阶时，存在滞后相关性，于是可以使用更适用的ADF检验。

ADF检验（Augmented Dickey-Fuller test）是一种用于检验时间序列数据是否具有单位根（unit root）的统计检验方法。单位根存在意味着时间序列数据具有非平稳性，即其均值或方差随时间变化而不稳定。

1）检验原理
ADF检验建立在自回归模型（AR）的基础上，用于判断时间序列数据是否具有单位根。其原假设（H0）是时间序列数据具有单位根，即非平稳；备择假设（H1）是时间序列数据不具有单位根，即平稳。通过对序列进行差分运算，可以将具有单位根的非平稳序列转化为平稳序列。

ADF检验的关键是引入滞后项（lagged terms），以考虑时间序列数据中的自相关性。通过比较包含不同滞后项的回归模型，可以确定序列是否具有单位根。

2）检验步骤
        1. 提出原假设和备择假设。
        2. 构建带有滞后项的回归模型，其中包括一阶差分项来探索时间序列数据的特性。
        3. 使用所构建的回归模型进行统计检验，其中检验统计量与相应的临界值进行比较。
        4. 根据检验统计量的显著性水平，判断是否拒绝原假设，从而得出时间序列数据的平稳性结论。

3）结果解释
如果检验统计量小于临界值，我们可以拒绝原假设，并得出时间序列数据是平稳的结论；反之，如果检验统计量大于临界值，则无法拒绝原假设，表明时间序列数据具有单位根，即非平稳。

4）应用领域
ADF检验常用于金融、经济学等领域，用于验证时间序列数据的平稳性，从而为后续的时间序列分析和建模提供基础。

当我们采用ADF进行检验的时候，我们实际上已经假设用AR模型对序列进行建模了。