这是对北美产险精算学会CAS北美产险精算师考试教材《广义线性模型实践者指南》的第一章中的实例的结果验证,教材中使用的是纯数学理论推导,这里使用python进行结果验证。
原始数据是一个简单的分组数据:
这个原始数据表需要进行结构化后,才方便建模
Class | Sex | Area | ACS |
1 | Male | Urban | 800 |
2 | Male | Rural | 500 |
3 | Female | Urban | 400 |
4 | Female | Rural | 200 |
教材给出了3个可选模型:
(1)正态分布和直等连接函数
拟合结果与教材一致。
(2)泊松分布和对数连接函数
拟合结果与教材一致。
(3)伽马分布和逆连接函数
拟合结果与教材一致,这个模型的结果在教材的附录F中。
模型总结:
从模型结果的相关参数来看,伽马分布配逆连接函数模型的效果是最差的,无论是aic指标值,还是参数的p值,尤其是Area系数的p值高达0.105。而泊松分布配对数连接函数、正态分布配直等连接函数,这两个模型的拟合效果相差不大,尽管前者的指标值略微好看一些。
从业务的角度讲,还要关注一个事情,那就是正态分布配直等连接函数的模型,对第1、4组风险的估价是偏低的,而第2、3组风险的估价是偏高的;而泊松分布配对数连接函数的模型则相反,对第1、4组风险的估价是偏高的,而第2、3组风险的估价是偏低的。因此,尽管模型整体拟合效果可以接受,还要从业务的角度考虑一下这个事情,需要看一下公司的业务重点或者未来业务占比会是向哪些组倾斜,避免过多写入模型估价偏低的业务组别。
(精算部落)