一、二值选择模型
采用probit或者logit模型
logit y x1 x2 ,nolog r vce(cluster clustervar) or
nolog表示不用显示迭代过程
vce(cluster cluster)表示运用聚类标准误,由于二值选择模型一般采用稳健标准误的意义不大,所以常常使用聚类标准误。
or 表示结果不是显示系数,而是几率比,解释的话即变量增加一单位,y变成1 的概率就会增加多少,注意stata直接显示的是倍数,即y选择1状态的概率是另一种的多少倍。
(1)计算预测的准确率
estat clas
(2)数据可能存在异方差,可以添加你认为可能导致发生异方差的解释变量
hetprob y x1 x2 x3,het(varlist) //varlist处填写
解决的问题:
a. 为什么一般不考虑文件标准误
因为在两点分布的情况下,稳健标准误就等于MLE的普通标准误,如果模型设定正确,则无需使用稳健标准误。而如果模型设定存在问题,则probit 和logit并不能一致估计相关系数,采用稳健标准误的意义也不存在了。
但可以利用观察稳健标准误情况下是否与普通回归具有较大差距判断模型设定是否存在问题。
b. probit和logit有什么区别
总体而言,差别存在于对被解释变量的残差的前提假定不同:probit假定的是正态分布,Logit假定的是logitistic分布。
一般来说没有较大的差别
二、多值选择模型
存在两种变量,分别为随个体而变动的和随方案变动的。只存在随个体而变的则为多项logit,只存在随方案变动的则为条件logit,两种变量均存在则为混合logit
1. 多项logit
mlogit y x1 x2 x3,rrr base(n)
其中rrr表示显示风险比率
base(n)表示选取哪一组作为对照组,系统默认为样本数量最多的一组。
2. 条件logit
每个个体包括所有的方式,如统计某个家庭最终选择哪种交通方式,每一种旅行方式对应分别的旅行时间和费用,但是最终只会选择一个。
clogit choice train bus time invc,group(id) nolog or
其中id代表拥有所有选项的个体
3. 混合logit
语法结构:
asclogit y x1 x2 x3,case(varname) alternatives(varname) casevars(varmane) base(n) or
其中case指定个体
alternatives指定方案
casevars指定只随个体变动的解释变量
asclogit choice time invc, case(id) alternatives(mode) casevars(hinc psize) base(3) nolog or
该模型需要手动计算R方
asclogit y x1 x2 x3,case(varname) alternatives(varname) casevars(varmane) base(n) nolog or
asclogit y ,case(varname) alternatives(varname) base(n) nolog or
dis (log2-log1)/(log2)
4. feologit:固定效应有序logic
feologit hourscat age union msp nev_mar tenure ln_wage,or nolog group(idcode)
命令下载 安装
net sj 20-2
net install st0596 (to install program files, if available)
net get st0596 (to install ancillary files, if available)
help feologit
语法结构
feologit depvar indepvars [if] [in] [weight], ///
group(varname) ///
[thresholds clones(#) keepsample seed(#) ///
cluster(clustvar) or otheropts]
其中:
depvar 是有序类别变量,即被解释变量
indepvars 是解释变量
if 是设定样本范围的条件语句
in 用于设定观察值范围
weight 用于设定权重
5. 排序型
当被解释变量存在一定排序关系,例如债券评级等,则需要运用到排序模型
ologit y x1 x2 x3,nolog
oprobit y x1 x2 x3,nolog
三、多值模型计数型
泊松回归和负二项回归的抉择
存在过度分散的情况下,但对被解释变量的方差函数并不清楚地时候,可采取泊松回归+稳健标准误的方式, 但在了解方差函数的情况下,当然负二项回归能够提供更加有效的估计。也可进行LR检验进行精准判断。
1. 泊松回归
poisson y x1 x2 x3,r irr
poisson y x1 x2 x3,r exposure(x1)
poisson y x1 x2 x3,r offset(x1)
irr表示显示发生比率
exposure(x1)表示将ln(x1)作为解释变量,并令其系数为1
offset(x1)表示单纯地把x1作为解释变量,其系数为1
2. 负二项回归
泊松回归地前提假设是被解释变量的期望和方差相等,即均等分散。但在实际数据中往往存在方差明显大于期望的情况,此时急需要采取负二项回归。dispersion(constant)表示采取NB1模型,默认是采取NB2模型。
nbreg y x1 x2 x3,r exposure(x1)
nbreg y x1 x2 x3,r dispersion(constant) offset(x1)
3. 零膨胀
当计数数据中存在大量的0时,需要考虑零膨胀模型。
zip y x1 x2 x3,inflate(varlist) voung
zinb y x1 x2 x3,inflate(varlist) voung
观察最后的vuong检验的p值,可以发现强烈拒绝标准泊松回归,而应该采用零膨胀。