1. 概念
泊松回归(Poisson regression)是用来为计数资料和列联表建模的一种回归分析。泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数线性模型。
1.1. 为什么需要使用Poisson regression
如果我们遇到因变量是离散型变量的问题建模时,一般的线性回归模型、定序回归模型和逻辑回归模型就可以解决大部分问题。但有一类特殊的因变量记录某个特定事件出现的次数(有序的非负整数),它们被称之为“计数数据”。如果我们按照普通的线性回归模型建模:
等号两边的实数都是有数值意义的
但是
等号右边可以是任意连续值,等号左边只能是非负实数(计数数据)。所以普通的线性回归模型是无法对计数数据建模的。
1.2 Poisson regression的分布条件
Poisson模型用于描述:单位时间、单位面积或者单位容积内某事件发现的频数分布情况。通常用于描述稀有事件(即小概率事件)发生数的分布。
满足以下三个条件时,可认为数据满足Poisson分布:
(1) 平稳性:发生频数的大小,只与单位大小有关系(比如1万为单位,或者100万为单位时患癌症人数不同);
(2) 独立性:发生频数的大小,各个数之间没有影响关系,即频数数值彼此独立没有关联关系;比如前1小时闯红灯的人多了,第2小时闯红灯人数并不会受影响;
(3) 普通性:发生频数足够小,即低概率性。
2. Poisson regression的stata实现
describe
poisson sales training, vce(robust)