PSM倾向性匹配得分

定义

就是一个用户属于实验组的倾向性，也就是在特定特征的情况下属于实验组的概率(条件概率)
其他定义：
PSM 通过统计学模型计算每个观测的每个协变量的综合倾向性得分，再按照倾向性得分是否接近进⾏匹配。
用直白的话来讲就是：由于变量太多，如果坚持各个变量一一精确匹配，那估计匹配下来没几个样本能一一匹配得上了。那不如直接用倾向得分，根据影响是否接受培训的各个元素，将每个用户计算出一个是否接受培训得分，从而将多维向量的信息压缩到一维，最后根据倾向得分进行匹配。
在这里插入图片描述
PSM倾向得分匹配法即通过对实验组样本建模，通过预测概率，为控制组每个用户拟合⼀个概率，每⼀个处理组样本在控制组找到⼀个和⾃⼰最接近的样本。

满足的假设

条件独立假设
直白地说即在接受实验之前，处理组和控制组之间没有差异，处理组产生的效应完全来自实验处理。拿上面的例子来说，即为员工是否接受培训与其工资水平相互独立。

共同⽀撑假设
直白地说即在理想情况下，出现在处理组的个体，也能在控制组中找到对应的个体。但实际中可能出现处理组的个体在控制组找不到对应的个体。拿上面的例子来说，就是可能会出现处理组全是初中毕业，控制组全是博士毕业。即在下图中，共同取值范围较少，那PSM可能就不适合了。
在这里插入图片描述
这里感觉可以用机器学习方法或者深度学习拓展一下，指预测部分

理解

理解PSM的来历
举个例子：
要研究X对Y的影响，这时候有一个样本A，恰好A有一个孪生兄弟A’，对A和A’施加不同的X效果，即可发现X对Y的影响。
但是在显示生活中，这样的样本不好找，再加上A有不同的属性（变量），使得匹配难上加难。
那么，可不可以用一种方法给一个样本打个分，按照分数来匹配（好像田忌赛马，但是是上等对上等，中等对中等，下等对下等），这就实现了从而将多维向量的信息压缩到一维，最后根据倾向得分进行匹配。