目录
一、文献综述
二、理论原理
三、实证模型
四、程序代码
一、文献综述
内生性问题在经济学和社会科学研究中一直是一个关键挑战,众多学者致力于寻找有效的方法来解决这一问题并确保研究结果的可靠性。
Angrist 和 Krueger(1991)在研究教育回报率时,巧妙地运用了工具变量法,为解决内生性问题提供了经典范例。他们利用出生季度作为工具变量,成功地分离出教育对收入的因果效应。这一研究不仅展示了工具变量法的强大潜力,也为后续研究提供了重要的思路和方法借鉴。
Wooldridge(2010)在其著作中系统地阐述了内生性问题的产生原因、影响以及各种解决方法。他详细介绍了工具变量法、固定效应模型、差分法等在处理内生性问题中的应用,并通过实际案例进行了深入分析。这本书成为了许多研究者在处理内生性问题时的重要参考书籍。
Stock 和 Watson(2011)则在计量经济学的教学与研究中强调了内生性检验的重要性。他们指出,在进行实证研究时,必须对可能存在的内生性问题进行严格的检验,否则得出的结论可能是不准确的。他们介绍了多种内生性检验方法,如豪斯曼检验等,并讨论了这些方法的优缺点和适用范围。
在过度识别检验方面,Hansen(1982)提出了 Hansen J 检验,这一检验方法在小样本下具有较好的性质,被广泛应用于工具变量的有效性检验。Sargan(1958)提出的 Sargan 检验在大样本下渐进有效,也是常用的过度识别检验方法之一。
过往的研究表明,内生性问题和过度识别问题在实证研究中不可忽视。学者们通过不断探索和创新,提出了各种有效的方法和检验手段,为提高实证研究的质量做出了重要贡献。
二、理论原理
-
内生性问题
(1)内生性产生的原因
-
遗漏变量:在建立回归模型时,如果遗漏了某些重要变量,这些被遗漏的变量可能同时影响解释变量和被解释变量,从而导致内生性问题。例如,在研究企业绩效与研发投入的关系时,如果遗漏了企业的管理水平这一变量,而管理水平既可能影响企业的研发投入决策,又可能直接影响企业绩效,就会产生内生性问题。
-
测量误差:当解释变量或被解释变量的测量存在误差时,也可能引发内生性问题。如果测量误差与误差项相关,那么估计结果就会出现偏差。比如,在调查居民收入时,由于受访者可能隐瞒真实收入或者记忆不准确等原因,导致收入变量的测量存在误差,这种误差如果与影响居民消费的其他因素相关,就会使消费与收入之间的关系出现内生性问题。
-
双向因果关系:当解释变量和被解释变量之间存在双向因果关系时,也会产生内生性问题。例如,经济增长可能会促进教育水平的提高,而教育水平的提高又反过来促进经济增长,在这种情况下,直接用普通最小二乘法估计教育对经济增长的影响,就会得到有偏的结果。
(2)内生性对估计结果的影响
当存在内生性问题时,普通最小二乘法(OLS)估计结果是有偏且不一致的。这是因为内生性使得解释变量与误差项相关,违反了 OLS 估计的基本假设。具体来说,如果存在内生性,OLS 估计量的期望值不再等于真实参数值,而且随着样本量的增加,估计量也不会收敛到真实参数值。这会导致我们对变量之间关系的估计出现错误,从而影响研究结论的可靠性。
(3)解决内生性问题的方法 —— 工具变量法
工具变量法是解决内生性问题的常用方法。其基本思想是找到一个与内生解释变量相关,但与误差项不相关的变量作为工具变量,通过两阶段最小二乘法(2SLS)进行估计。
-
工具变量的选择条件:一个有效的工具变量需要满足两个条件。一是相关性,即工具变量与内生解释变量相关;二是外生性,即工具变量与误差项不相关。例如,在研究教育对收入的影响时,如果存在内生性问题,可以考虑使用家庭所在地的平均教育水平作为工具变量。家庭所在地的平均教育水平与个人的教育水平相关(相关性条件),同时又不太可能直接影响个人的收入(外生性条件)。
-
两阶段最小二乘法的步骤:第一阶段,用工具变量对内生解释变量进行回归,得到内生解释变量的拟合值;第二阶段,用被解释变量对内生解释变量的拟合值和其他外生解释变量进行回归,得到估计系数。通过这种方法,可以消除内生性对估计结果的影响。
-
-
过度识别检验
(1)过度识别的概念
当工具变量的个数多于内生解释变量的个数时,就会出现过度识别的情况。例如,在一个回归模型中有一个内生解释变量,我们选择了两个工具变量,这时就需要进行过度识别检验,以确定这些工具变量是否都是有效的。
(2)过度识别检验的目的
过度识别检验用于检验工具变量的有效性。其目的是判断我们所选择的工具变量是否满足外生性条件,即是否与误差项不相关。如果工具变量不满足外生性条件,那么估计结果仍然是有偏的。
(3)常用的过度识别检验方法
-
Sargan 检验:Sargan 检验在大样本下渐进有效。它的基本思想是通过比较工具变量的估计值与真实值之间的差异来判断工具变量的有效性。如果工具变量是有效的,那么估计值与真实值之间的差异应该很小,检验统计量的值也应该较小。在 Stata 中,可以使用 “estat overid” 命令进行 Sargan 检验。
-
Hansen J 检验:Hansen J 检验在小样本下也具有较好的性质。它通过构造一个 J 统计量来检验工具变量的有效性。如果 J 统计量的值较小,且对应的 p 值大于给定的显著性水平,就说明工具变量是有效的。在 Stata 中,可以使用 “ivregress 2sls Y Z (X = W), robust overid” 命令进行 Hansen J 检验,其中 “robust overid” 选项表示进行稳健的 Hansen J 检验。
-
三、实证模型
假设我们要研究企业创新投入(Y)与企业盈利能力(X)之间的关系,同时考虑到可能存在的内生性问题。我们建立如下回归模型:
Y = β0 + β1X + β2Size + β3Age + ε
其中,Y 表示企业创新投入,可以用企业研发支出占营业收入的比例来衡量;X 表示企业盈利能力,用净资产收益率(ROE)来表示;Size 表示企业规模,用企业总资产的自然对数来衡量;Age 表示企业年龄。ε 是误差项。
如果企业盈利能力(X)与误差项(ε)相关,就存在内生性问题。例如,可能存在一些未观察到的因素同时影响企业盈利能力和创新投入决策,导致内生性。
我们可以寻找一个工具变量 W,比如企业所在行业的平均盈利能力。这个工具变量满足以下两个条件:一是相关性,即企业所在行业的平均盈利能力与企业自身的盈利能力相关;二是外生性,即行业平均盈利能力不太可能直接影响单个企业的创新投入决策,而是通过影响企业自身的盈利能力间接发挥作用。
然后,通过两阶段最小二乘法进行估计。
第一阶段回归:用工具变量 W(行业平均盈利能力)和外生解释变量 Size(企业规模)、Age(企业年龄)对内生解释变量 X(企业盈利能力)进行回归,得到拟合值 X̂。
回归方程为:X = γ0 + γ1W + γ2Size + γ3Age + η
其中,γ0、γ1、γ2、γ3 是待估计的系数,η 是第一阶段回归的误差项。
第二阶段回归:用 Y(企业创新投入)对 X̂(企业盈利能力的拟合值)和外生解释变量 Size(企业规模)、Age(企业年龄)进行回归,得到估计系数。
回归方程为:Y = β0 + β1X̂ + β2Size + β3Age + ε'
其中,β0、β1、β2、β3 是待估计的系数,ε' 是第二阶段回归的误差项。
四、程序代码
假设我们有一个数据集,包含变量 Y、X、Size、Age 和 W。首先,我们需要导入数据到 Stata 中。
use "data.dta", clear // 使用 clear 选项确保数据环境干净
描述性统计
查看数据的基本情况,包括变量的均值、标准差、最小值和最大值等。
summarize Y X Size Age W
还可以进一步使用 tabstat 命令获取更详细的统计信息:
tabstat Y X Size Age W, statistics(mean sd min max) columns(statistics)
内生性检验(工具变量法)
- 第一阶段回归:用工具变量 W、外生解释变量 Size 和 Age 对内生解释变量 X 进行回归,得到拟合值 X̂。
reg X W Size Age
predict X_hat, xb // 使用 xb 选项生成拟合值 X̂
可以使用 estat vce 命令查看第一阶段回归的方差协方差矩阵:
estat vce
- 第二阶段回归:用 Y 对 X̂、Size 和 Age 进行回归。
reg Y X_hat Size Age
可以使用 est store 命令存储第二阶段回归结果以便后续使用:
est store second_stage
过度识别检验
- Sargan 检验
ivregress 2sls Y Size Age (X = W)
estat overid
可以使用 return list 命令查看 Sargan 检验的统计量和相关信息:
return list
- Hansen J 检验
ivregress 2sls Y Size Age (X = W), robust overid
同样可以使用 return list 命令查看 Hansen J 检验的统计量和相关信息:
return list
通过这些详细的程序代码,可以更加全面地在 Stata 中进行内生性检验和过度识别检验,并获取更多关于回归结果和检验的信息。在实际应用中,还可以根据具体情况进行进一步的调整和扩展。
IV专题- 内生性检验与过度识别检验 (lianxh.cn)https://www.lianxh.cn/details/988.html