自选择问题和处理效应模型
- DGP
- 注意:
这里的概率密度超过了1,这是正常的。概率密度的三原则, - 1是大于等于0;
- 2是积分等于1;
- 对于连续型随机变量,给定一个具体的x值,f(x)并不是该事件发生的概率。而是f(x)描述了在x处的概率密度,即随机变量取值落在x附近单位长度内的概率。
Tobit模型的适用数据
- 简言之,y值有大部分是0(占比还不小),如果直接估计或者删除估计,都是有偏的。那么使用Tobit。
- 观察统计特征的代码
- 下面是理论部分
Tobit 模型假定
-
P
(
y
i
=
0
∣
x
i
)
P(y_i=0|x_i)
P(yi=0∣xi)时
- 这里的示性函数应该是
I
y
i
>
0
I_{y_i>0}
Iyi>0
结论 - 如果用y和截断后的y去reg,都会低估参数值
h tobit
的帮助命令
-
几种模型的对比
-
数据是不是随机缺失还是非随机缺失 问题很大
-
随机缺失,可以直接扔掉,非随机缺失,不能直接扔掉
-
非随机缺失,缺失背后的原因很重要–【模仿学霸表象的学习】
处理效应的随机和非随机
给的例子
- 随机下:1000个样本,抓阄选取400个当实验对象。
- 非随机下:1000个样本,按照一定条件(LEV ROE CG),有条件的充当实验对象。
自选择:
若果在模型中有一个D(虚拟变量),那么一定要考虑取1(实验组),是不是随机选出来的?
Heckman过程
这里面有很多理解的点
但是最重要的:
- 预设的模型,因为各种原因,可能会遗漏变量
逆米歇尔比率推导过程
逆米希尔比率推导过程
注意
λ
(
−
c
)
\lambda(-c)
λ(−c)
- 推广
- 其实就是一个换元,将z换成
u
/
σ
u/\sigma
u/σ
- 读到这里,就解释了为什么逆米希尔比率可以代替“补丁”