倾向得分匹配案例分析

news2024/11/16 5:28:48

一、倾向得分匹配法说明

倾向得分匹配模型是由Rosenbaum和Rubin在1983年提出的,首次运用在生物医药领域,后来被广泛运用在药物治疗、计量研究、政策实施评价等领域。倾向得分匹配模型主要用来解决非处理因素(干扰因素)的偏差。

‍1、基本原理——反事实推断

基本原理是:根据处理组的特征,找出与处理组特征尽可能类似的控制组进行匹配,从而消除非处理因素的干扰。

例如:研究“是否读研”对于“收入”的帮助时,我们只能得到已经读研的处理组的收入情况,但是无法得到处理组的人没有读研的收入情况(反事实)。同时,是否读研和收入本身还受到其他非处理因素(干扰因素)的影响(比如学习成绩、家庭背景、学校差异等),此时,为了明确没有读研的反事实情况,进行反事实推断,校正非处理因素的影响就可以使用倾向得分匹配法,找到与读研的处理组学习成绩、家庭背景、学校差异等非处理因素类似的但是没有读研的控制组进行匹配,然后进行“是否读研”对于“收入”的帮助研究。

‍2、算法步骤

倾向得分匹配算法步骤如下:

  1. 计算倾向得分Pscore值
    构建一个是否接受培训的二分类变量作为因变量,以干扰因素作为自变量X进行二元logit回归模型构建,然后根据logit模型计算倾向得分Pscore值。Pscore值代表了干扰因素的整体水平情况,Pscore值越接近,说明两个研究对象(员工)的特征(初始工资等)越接近,第二步进行match匹配时,直接针对Pscore值进行。
  2. 进行匹配
    根据计算的倾向得分Pscore值进行处理组和控制组的样本进行匹配。SPSSAU会默认对样本进行编号(id),进行匹配时,针对研究因素Y= 1(处理组)的样本,去找对应Y=0(控制组)的匹配对象。
  3. PSM效果分析

匹配完成后,需要对匹配效果进行分析,包括分析PSM匹配基本信息、匹配后标准差偏差的变化、平行趋势检验、共同支撑检验等,后续将进行重点说明。

二、案例及SPSSAU实现

‍1、案例介绍

当前有一个公司,想要研究 “ 是否培训 ” 对于 “ 当前工资 ” 的影响。在公司内部,共收集到78个员工的相关信息,其中有17名员工接受过培训,61名员工未接受培训。已知当前工资会受到 “ 初始工资 ”、“ 工作经验 ”、“ 岗位 ”这3个基本特征的影响。因此,使用倾向得分匹配法找到除 “ 是否培训 ” 这一处理因素不同外,其他基本特征一致的两类人进行研究。

2、SPSSAU匹配操作

SPSSAU进行倾向得分匹配操作如下:将 “ 是否培训 ” 放到研究变量分析框中; “ 初始工资、工作经验、岗位 ” 这三个干扰因素放到特征项分析框中;“ 当前工资 ” 放在结果变量分析框中。同时勾选【保存信息】按钮,SPSSAU会默认输出id、matchid、weight、Pscore四项信息,id和matchid用于展示员工之间的匹配关系;weight用于标识匹配成功的次数;Pscore为二元logit回归模型估计值。SPSSAU操作如下图:

进行匹配时,SPSSAU需要选择匹配方法和抽样方法

(1)匹配方法选择

SPSSAU提供 “ 最近临法 ”(默认)和 “ 半径匹配法 ” 。“ 最近临法 ” 指找到PScore最接近的意思,“ 半径匹配 ” 找到PScore在可接受范围(阀值,卡钳值)内,阀值越小匹配越精确。本案例选择半径匹配法(0.05)进行匹配,如下图:

(2)抽样方法选择

SPSSAU提供 “ 放回抽样 ”默认和 “ 不放回抽样 ” 两种抽样方式。放回抽样是指某个样本会被重复匹配多次,不放回抽样是指样本最多被匹配1次就截止了。放回抽样的算法运行效率较低,当数据量非常大时可能不合适,本例数据较少,用两种抽样方法都可以,选择使用不放回抽样进行匹配,如下图:

以上操作完成之后,点击【开始分析】按钮,SPSSAU即输出匹配结果,接下来进行匹配效果分析。

3、匹配效果分析

倾向得分匹配效果分析包括分析匹配基本信息、匹配后标准化偏差、PSM平行假设检验、共同支撑检验四个方面。接下来,将逐个进行分析。

(1)匹配基本信息

SPSSAU输出PSM基本信息汇总表如下:

从上表可知,本次匹配使用半径匹配法并且精确匹配优先(精确匹配是指两个样本的Pscore值完全相等),匹配半径值为0.05,使用不放回抽样的方法。需要匹配个数(接受培训人数)为17,最终有16人匹配成功,匹配成功率94.118%。

(2)匹配后标准化偏差

标准化偏差对比图直观展示匹配前和匹配后标准化偏差的变化情况,如果标准化偏差变化明显(或者匹配后标准化偏差<20%),则说明匹配效果较好。

SPSSAU输出标准化偏差变化对比如下:

从上图来看,在匹配后,标准化偏差均小于20%,说明匹配之后,“初始工资”、“工作经验”、“岗位”这3项干扰因素,处理组与控制组特征基本保持一致。说明匹配效果较好。

(3)PSM平行假设检验

倾向得分匹配模型的一个假设是平行假设,即参与匹配的员工必须要各个维度上与处理组员工相似,这样才能保证估计结果的可靠性。

SPSSAU输出PSM平行假设检验如下表:

从上表可以得到:在匹配前,处理组和控制组(是否培训的两类员工),他们的特征项包括“初始工资”、“工作时间”、“岗位”均有显著性差异(p值均小于0.05),说明这3个特征项均属于干扰因素。

匹配后,处理组和控制组的3个特征项之间没有呈现出显著性差异(p值均大于0.05),说明经过匹配,处理组与控制组在这3个特征项上具有一致性。

针对标准化偏差来看,匹配后,特征项的标准化偏差全部低于20%,说明经过匹配处理组与控制组的3个特征项基本一致。标准化偏差减少幅度用于衡量标准化偏差的减少幅度情况,如果该值大于0,说明匹配效果好,该值小于0,说明匹配效果不好。该值越大越好,没有固定标准。从上表来看,3个特征项的标准化偏差减少幅度均大于0,说明匹配效果好。

综上所述,在匹配前,处理组和控制组的3个特征项均存在显著性差异,但经过匹配后,处理组与控制组在3个特征项上无显著性差异,具有一致性。所以PSM模型通过平行假设检验。

(4)共同支撑检验

倾向得分匹配的另一个假设就是共同支撑假设,即处理组与控制组是否具有相同的倾向得分值。共同支撑检验可以通过SPSSAU的核密度图进行检验,检验原理在于对比匹配前与匹配后的倾向得分值的分布情况。

①针对匹配前的Pscore值绘制核密度图,将“是否培训”放入X分析框中,“初始工资”和“工作经验”放入Y分析框中(核密度图Y只针对定量数据,故不分析岗位),SPSSAU操作如下:

得到匹配前初始工资与工作经验的核密度图如下:

从匹配前核密度图来看,处理组与控制组的Pscore值分布存在很大差异。如果忽略这种差异的存在(不进行匹配,直接进行差异分析),很可能导致研究结论偏误。同时看到处理组和控制组存在重叠部分,表明处理组和控制组具备了使用倾向得分匹配模型的条件。

②针对匹配后Pscore值绘制核密度图,筛选出匹配次数weight>0(不放回抽样也可以选择weight=1)的数据后再进行核密度图绘制。SPSSAU操作如下:

再次进行分析,得到匹配后核密度图如下:

从匹配后的核密度图看,经过匹配,处理组和控制组之间出现了显著的靠近与覆盖,存在较大的共同取值区间,表明两组样本在各方面特征已经非常接近,匹配效果较好,即说明通过共同支撑检验

4、研究结论分析

经过匹配后,研究 “ 是否培训 ” 是否会对 “ 当前工资 ” 产生显著影响可以使用t检验进行分析,但是SPSSAU在倾向得分匹配中可以做到 “ 一步到位 ” ,无需单独进行t检验,在此前将 “ 当前工资 ” 放入【结果变量】中,就是为了直接获得分析结果。SPSSAU输出结果为ATT效应分析,结果如下表:

ATT效应分析的目的在于分析匹配后结果变量在处理组和控制组之间是否有显著性差异。在本例中,即分析匹配后 “ 是否培训 ” 的两类人“当前工资”是否有显著差异。 “ Unmatched匹配前 ” 即第1行数据是指在匹配之前 , “ 研究变量 ” 与 “ 结果变量 ” 之间是否存在着差异性,其意义较小;主要看第二行数据ATT效应。

从上表可以看出,在匹配前,是否培训与当前工资之间呈现性差异(p<0.05)。以及在匹配之后,ATT效应值呈现出显著性(p<0.05),即说明进行PSM分析后显示是否培训与当前工资之间呈现出显著性差异,ATT效应值为17554.412,即意味着是否培训与当前工资起到正向作用。

总结与拓展

倾向得分匹配法是通过对样本建模(logit模型)得到Pscore值,通过Pscore值为处理组在控制组中找到最接近的样本,从而进行研究的。

PSM的优点在于可以控制干扰因素的影响、提高研究的证明力度;但其缺点也不可忽视,例如PSM需要样本量大、可能并非所有样本都能匹配成功,所以导致匹配后引起的样本量的损失问题不能忽视,甚至无法确定匹配后的样本是否能代表原有研究样本。

PSM有优点也有其局限性,但是尽管如此,PSM也是现代研究中一个不可或缺的统计方法,关键在于能够辨别自己的研究问题与PSM的适用性是否匹配,欢迎讨论~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/376305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么硬件性能监控很重要

当今的混合网络环境平衡了分布式网络和现代技术的实施。但它们并不缺少一个核心组件&#xff1a;服务器。保持网络正常运行时间归结为监控和管理导致网络停机的因素。极有可能导致性能异常的此类因素之一是硬件。使用硬件监控器监控网络硬件已成为一项关键需求。 硬件监视器是…

连接金蝶云星空,数据交互轻松搞定!丨三叠云

金蝶云星空 路径 拓展 >> 插件 功能简介 新增插件「金蝶云星空」。 用户可通过配置「金蝶云星空」插件&#xff0c;就可以实时获取「金蝶云星空」的数据&#xff0c;同时支持回填数据至金蝶系统内。 地图视图 路径 表单 >> 表单设计 功能简介 新增「地图视…

prometheus+cadvisor监控docker

官方解释 cAdvisor&#xff08;ContainerAdvisor&#xff09;为容器用户提供了对其运行容器的资源使用和性能特性的了解。它是一个正在运行的守护程序&#xff0c;用于收集、聚合、处理和导出有关正在运行的容器的信息。具体来说&#xff0c;它为每个容器保存资源隔离参数、历史…

活动目录(Active Directory)组策略管理工具

活动目录&#xff08;Active Directory&#xff09;是面向Windows Standard Server、Windows Enterprise Server以及 Windows Datacenter Server的目录服务。&#xff08;Active Directory不能运行在Windows Web Server上&#xff0c;但是可以通过它对运行Windows Web Server的…

虚拟数字人直播带货相比人工有哪些优势?

新经济时代的到来&#xff0c;彻底改变了传统的消费方式。虚拟数字人的出现&#xff0c;标志着新一波的消费升级到来。虚拟数字人直播带货&#xff0c;不仅降低了商家的带货成本&#xff0c;拉近了商家与消费者的距离&#xff0c;也给消费者带来全新的消费方式。 花西子虚拟形象…

华为OD机试模拟题 用 C++ 实现 - 删除最少字符(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明删除最少字符题目输入输出描述示例一输入输出示例二输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率…

在Redis集群模式下使用pipeline进行批量操作

最近开始又接触到了Redis&#xff0c;之前在工作中使用Redis的时候&#xff0c;由于QPS不高&#xff0c;都是直接get/set搞定了。这次遇到的业务数据量比较大&#xff0c;更新也很频繁&#xff0c;Redis使用是集群模式&#xff0c;所以本文记录下捣鼓出来的如何在集群模式下使用…

动手学深度学习(第二版)学习笔记 第三章

第三章 线性神经网络 代码&#xff1a;d2l-zh/pytorch/chapter_linear-networks 3.1 线性回归 3.1. 线性回归 — 动手学深度学习 2.0.0 documentation 解析解 线性回归的解可以用一个公式简单地表达出来&#xff0c;这类解叫作解析解&#xff08;analytical solution&…

深度学习实战19(进阶版)-SpeakGPT的本地实现部署测试,基于ChatGPT在自己的平台实现SpeakGPT功能

大家好&#xff0c;我是微学AI&#xff0c;今天给大家带来SpeakGPT的本地实现&#xff0c;在自己的网页部署&#xff0c;可随时随地通过语音进行问答&#xff0c;本项目项目是基于ChatGPT的语音版&#xff0c;我称之为SpeakGPT。 ChatGPT最近大火&#xff0c;其实在去年12月份…

「架构」全链路异步模式

总结自尼恩的全链路异步&#xff1a;网关纯异步化网关层的特点&#xff1a;不需要访问业务数据库只做协议转换和流量转发特点是 IO 密集型&#xff0c;特别适合纯异步的架构&#xff0c;可以极大的节省资源。如何进行网关异步化&#xff1f;使用高性能的通信框架Netty&#xff…

CSS3新增的视口单位Vh、Vw单位

定义vw&#xff1a;浏览器可见视口【宽度】的百分比&#xff08;1vw代表视窗【宽度】的1%&#xff09;vh&#xff1a;浏览器可见视口【高度】的百分比&#xff08;1vw代表视窗【高度】的1%&#xff09;vmin&#xff1a;当前 vw 和 vh 较小的一个值。vmax&#xff1a;当前 vw 和…

现在入行软测=49年入国军?三句话,让面试官再掏2K!

还有三五天就步入金三银四&#xff0c;很多软测人吐槽因为疫情&#xff0c;公司都在裁员&#xff0c;别说跳槽涨薪&#xff0c;能保住现在的工作就不错了。但也有那么一批人&#xff0c;凭借自己口才与实力拿到年薪近50W的offer。面试是初见1小时就要相互了解优缺点的过程&…

软考知识笔记 2023.2.24 2018下半年真题

答案&#xff1a; A BIOS (BasicInputOutputSystem) (基本输入输出系统) 是一组固化到计算机内主板上一个ROM芯片上的程序&#xff0c; 它保存着计算机最重要的基本输入输出的程序&#xff0c; 开机后自检程序和系统自启动程序&#xff0c; 它可从CMOS中读写系统设置的具体信息…

SpringBoot整合(六)多数据源和 JPA、MyBatis、JdbcTemplate 的集成

在springboot项目中&#xff0c;我们可能会碰到需要多数据源的场景。例如说&#xff1a; 读写分离&#xff1a;数据库主节点压力比较大&#xff0c;需要增加从节点提供读操作&#xff0c;以减少压力。多数据源&#xff1a;一个复杂的单体项目&#xff0c;因为没有拆分成不同的…

PPP简介,PPP分层体系架构,PPP链路建立过程及PPP的帧格式

PPP&#xff08;Point-to-Point Protocol&#xff09;是一种用于在两个网络节点之间传输数据的通信协议。它最初是为在拨号网络上进行拨号连接而开发的&#xff0c;现在已经被广泛应用于各种网络环境中&#xff0c;例如在宽带接入、虚拟专用网&#xff08;VPN&#xff09;等场景…

在linux中使用lftp和sftp下载文件(夹)

一、首先确保你的系统中已经下载了lftp和sftp。 1.安装lftp sudo apt install lftp sudo apt install screen 2.安装sftp 在Linux系统中&#xff0c;一般RedHat系统默认已经安装了openssh-client和openssh-server&#xff0c;即默认已经集成了sftp服务&#xff0c;不需要重…

LVGL8.3 集成 ST7789V 显示驱动和 CST816T 触摸屏驱动

LVGL8.3 集成 ST7789V 显示驱动和 CTS816S 触摸屏驱动起因效果&#xff08;正常显示&#xff0c;触摸屏可调换X&#xff0c;Y轴&#xff09;使用方式前提操作步骤最后参考起因 LVGL的ESP32 Drivers库中已经包含了大多数显示和触摸芯片的驱动&#xff0c;基本上只需要在MenuCon…

高级前端面试题汇总

iframe 有那些优点和缺点&#xff1f; iframe 元素会创建包含另外一个文档的内联框架&#xff08;即行内框架&#xff09;。 优点&#xff1a; 用来加载速度较慢的内容&#xff08;如广告&#xff09;可以使脚本可以并行下载可以实现跨子域通信 缺点&#xff1a; iframe 会…

【ssm框架】从0开始搭建ssm框架(idea版本)

SSM&#xff08;SpringSpringMVCMyBatis&#xff09;框架集由Spring、MyBatis两个开源框架整合而&#xff08;SpringMVC是Spring中的部分内容&#xff09;&#xff0c;常作为数据源较简单的web项目的框架。 一、 环境介绍 先创建一个web工程。这里使用SSM最终完成一个员工信息的…

驾驭云端之风1——Spring Cloud微服务架构实践指南

本博客纯属个人总结&#xff0c;非原创。喜欢技术交流的&#xff0c;可关注博主&#xff0c;武汉有后端开发群&#xff0c;可支持内推&#xff0c;了解武汉行情等。 前沿 优惠卷平台项目的整体功能和模块&#xff0c;以及每个功能点的技术选型和背后的依据。 搭建一个简化版的…