断点回归模型

断点回归模型

news2026/2/15 8:04:37

断点回归（Regression Discontinuity Design, RDD）是一种准实验设计方法，用于评估政策或其他干预措施的效果。这种方法利用了一个清晰的阈值或“断点”，在这个阈值上，处理状态（例如是否接受某种干预）会突然改变。通过比较断点两侧单位的差异，可以估计出干预效果。

一个生活中的例子是关于学生的奖学金分配。假设一所大学设立了一项奖学金，只有那些平均成绩达到80分以上的学生才有资格获得。这里，80分就是断点。在80分之上的学生和80分之下的学生在其他方面可能非常相似，但由于这个政策，他们的一个关键区别就是前者获得了奖学金而后者没有。

在这里插入图片描述

有一个突变过程，想象一下分段跳跃函数

反事实：
如果你不读博，你现在在干嘛？可惜你已经读博了，回不去了。所以反事实很难构建。

取平均后的效应（ $S_1-S_0$ ）是被高估的。
在这里插入图片描述

原因：

1.高分可能人更聪明，可能获得更好的发展空间
2.高分人的家庭条件更好，实习的机会更多，家庭的社会资源更广
3.。。。。就是原因可能并不完全来自【政策、处理】的效应。
那么该如何估计呢？
1.设计一个小窗
2.在小窗内建立一个模型，但限制在小窗范围内
3.用前一个断点代替反事实
4.两者相减，得到处理效应
断点推文

模拟实验验证

产生数据
数据可视化

在这里插入图片描述

传统估计方法

简单均值比较
全样本回归

分别估计断点前后的线，计算出 $\tau_2-\tau_1$ 就是处理效应。
这种也是高估的。
下面展示的是模型设定造成的偏差
下面是正解

断点：多项式回归-二次函数

在这里插入图片描述

断点：局部线性

适用条件:在断点局部有足够多的数据

在这里插入图片描述

RDD估计-理论

截距的阐释
以上就是一个平移【左加右减】，可以看出线不动，动坐标轴
$x c < 0$ control 组 and $x c > 0$ treat组
其实用用 $\alpha_1$ 当作 $\alpha_2$ 反事实。
关于h（窗宽）h越大，样本区间越大，估计越准确，但风险越高（样本区间的x和y不一定是线性关系），h越小，线性拟合越合理。

分两种情形的讨论

模型-平行斜率（左1）
模型-变斜率（左2、3）
注意在模型假设的形式上的区别。

在这里插入图片描述
当h扩大，线性假设可能不成立，如下图。所以，可以采取加平方项的局部多项式回归。模型假设如下（右下角）

在这里插入图片描述
记住一点：RDD算的处理效应其实就是在断点两边分别估完方程后与y【断点竖向轴线】的交叉值的差 其实斜率不重要。

RDD的stata模拟

在这里插入图片描述

标准stata的RDD实现代码

最优带宽的选择

在这里插入图片描述

rdrobust y x  自动选择带宽

在这里插入图片描述

一般在论文中要报告：左右两边的图像拟合情况。下面是代码和图像

在这里插入图片描述

注意：上图的散点其实是的分组求平均的
比如：N=4000，带宽内的样本占比0.2，N1=800，在左右分成20组，一组N2=20，对组内求平均，左右各画20个点。

扩展：是否加入控制变量

连老师：其实不用，加入控制变量会出现变量冗余，通过局部多项式估计（1次2次3次项作为控制）之后，其实就够了，但一部分文献做了，可能是为了估得更准。
建议：都行，目前在争论。
在这里插入图片描述

关于局部多项式【高阶问题】项数的选择问题

给出实验
在这里插入图片描述

模拟数据给出：阶数似乎越大越好，但这是基于我们知道模拟数据的真实情况，日常科研中，我们不是上帝，不知道真是的处理效果。

解决办法：信息准则
AIC的模型更丰满（参数更多）-选M8
BIC的模型更骨干（参数较少）-先M5

在这里插入图片描述

在这里插入图片描述

核加权局部多项式

用核密度函数估计

lpoly y x if x<0 ,at(cut) gen(av_y0) 左边条件
lpoly y x if x>=0 ,at(cut) gen(av_y1) 左边条件

在这里插入图片描述

总结

借助局部线性回归模型 Or 非线性（加入平方、三次、n次控制）
关键点是h的选择，有自动的代码rdrobust

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2123320.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

浅谈为什么数据库要用B树

浅谈为什么数据库要用B树

朋友，你有没有遇到过这样的情况？明明数据库里存的东西还不算太多，可一查数据，页面加载慢得像蜗牛？别急，问题可能出在你的数据库索引上。而今天我要跟你聊的，就是在数据库里被广泛应用的B树（B-Trees），它可是提升数据库性能的秘密武器。听起来有点深奥？别担心，我会用…

阅读更多...

C程序设计——再说说函数参数的值传递

C程序设计——再说说函数参数的值传递

上一篇的最后，我强调了C语言里，所有函数参数的传递，都是值传递，即形参值改变，不影响实参的值。指针作为函数参数我们知道，指针也是C语言的一个类型，所以指针，也可以作为函数参数…

阅读更多...

【TPAMI 2024】一种用于混合事件-帧摄像机的异步线性滤波器架构

【TPAMI 2024】一种用于混合事件-帧摄像机的异步线性滤波器架构

题目：An Asynchronous Linear Filter Architecture for Hybrid Event-Frame Cameras 一种用于混合事件-帧摄像机的异步线性滤波器架构作者：Ziwei Wang; Yonhon Ng; Cedric Scheerlinck; Robert Mahony 摘要事件相机非常适合捕捉高动态范围(HDR)视觉…

阅读更多...

运维保障高效化的智慧能源开源了

运维保障高效化的智慧能源开源了

一、简介 AI视频监控平台, 是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约 95%的开发成本，在强大视频算…

阅读更多...

【python因果推断库13】使用 PyMC 模型进行回归断点分析

【python因果推断库13】使用 PyMC 模型进行回归断点分析

目录线性模型、主效应模型和交互作用模型使用bandwidth 使用基样条 import causalpy as cp %load_ext autoreload %autoreload 2 %config InlineBackend.figure_format retina seed 42 df cp.load_data("rd") 线性模型、主效应模型和交互作用模型 PyMC 采样…

阅读更多...

教学辅助微信小程序|基于SSM+vue的高校教学微信小程序系统(源码+数据库+文档)

教学辅助微信小程序|基于SSM+vue的高校教学微信小程序系统(源码+数据库+文档)

高校教学目录基于SSM教学辅助微信小程序一、前言二、系统设计三、系统功能设计小程序端后台功能模块四、数据库设计五、核心代码六、论文参考七、最新计算机毕设选题推荐八、源码获取： 博主介绍：✌️大厂码农|毕设布道师&#x…

阅读更多...

【Python】01.Python 介绍及其环境配置

【Python】01.Python 介绍及其环境配置

一、计算机的基础概念 1.1 什么是计算机所谓计算机，不光能进行算术运算，还能进行逻辑判断、数据存储、网络通信等等功能，以至于可以自动的完成非常复杂的工作。以下这些都可以称为 “计算机” ： 1.2 冯诺依曼体系结构而一台…

阅读更多...

媒体服务器软件BUG说明及改进方案

媒体服务器软件BUG说明及改进方案

媒体服务器软件BUG说明及改进方案一、BUG描述二、问题分析三、改进方案四、实施计划五、预期效果六、总结一、BUG描述在当前版本的媒体服务器中，存在一个关于静音媒体流处理的问题。具体表现为：当主叫连续发送静音帧到媒体服务器时，媒体服务器并未将这些静音帧转发给被叫…

阅读更多...

闯关leetcode——13. Roman to Integer

闯关leetcode——13. Roman to Integer

大纲题目地址内容解题代码地址题目地址 https://leetcode.com/problems/roman-to-integer/description/ 内容 Roman numerals are represented by seven different symbols: I, V, X, L, C, D and M. SymbolValueI1V5X10L50C100D500M1000 For example, 2 is written …

阅读更多...

CVE-2024-37032-Ollama漏洞

CVE-2024-37032-Ollama漏洞

简介 Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单高效的接口，用于创建、运行和管理这些模型，同时还提供了一个丰富的预构建模型库，可以轻松集成到各种应用程序中。Ollama的目标是使大型语言模型的部…

阅读更多...

Redis——初识Redis

Redis——初识Redis

初识Redis Redis认识Redis 分布式系统单机架构为什么要引入分布式理解负载均衡数据库的读写分离引入主从数据库引入缓存数据库分库分表业务拆分——微服务常见概念了解 Redis背景介绍特性应用场景Redis不能做的事情Redis客户端redis客户端的多种形态 Redis 认识Redis 存储数…

阅读更多...

flow model

flow model

https://www.youtube.com/watch?vuXY18nzdSsMcomponent by component(auto regresive)的生成模型存在的问题(生成的顺序，生成的速度慢)；variational auto-encoder存在的问题(optimize a maxihood lower bound，是一个近似)；genera…

阅读更多...

【机器学习】隐马尔可夫模型的基本概念和应用领域以及在NLP中如何实现（含python代码）

【机器学习】隐马尔可夫模型的基本概念和应用领域以及在NLP中如何实现（含python代码）

引言隐马尔可夫模型（Hidden Markov Model，HMM）是一种统计模型，用于描述一个含有隐含状态的马尔可夫过程文章目录引言一、隐马尔可夫模型的基本概念1.1 HMM的基本组成1.2 HMM的三个基本问题1.3 解决HMM问题的算法1.4 在python中…

阅读更多...

Linux 安装神州通用数据库 ShenTong7.0.8_342.92_linux64

Linux 安装神州通用数据库 ShenTong7.0.8_342.92_linux64

Linux 安装神州通用数据库 ShenTong7.0.8_342.92_linux64 1、准备工作2、安装数据库3、启停数据库4、后续步骤 💖The Begin💖点点关注，收藏不迷路💖 在Linux环境下安装神州通用数据库（ShenTong）是一个相对直…

阅读更多...

如何通过 Apache Camel 将数据导入 Elasticsearch

如何通过 Apache Camel 将数据导入 Elasticsearch

作者：来自 Elastic Andre Luiz 使用 Apache Camel 将数据提取到 Elasticsearch 的过程将搜索引擎的稳健性与集成框架的灵活性相结合。在本文中，我们将探讨 Apache Camel 如何简化和优化将数据提取到 Elasticsearch。为了说明此功能，我们将实…

阅读更多...

5G网络建设

5G网络建设

题目描述现需要在基城市进行5G网络建设，已经选取N个地点设置5G基站，编号固定为1到N，接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通，不同基站之间假设光纤的成本各不相同，且有些节点之间已经存在光纤…

阅读更多...

8个动态着陆页案例及最佳实践

8个动态着陆页案例及最佳实践

动态着陆页是一种让市场营销人员在不必因成百上千变量而抓狂的情况下，利用个性化力量的绝佳方式，从而让他们能够扩大努力并增长业务。使用像光年AI这样的平台，可以更方便地实现这一目标。在这篇文章中，您将了解到： …

阅读更多...

非监督式机器学习:群集

非监督式机器学习:群集

聚类分析是一种非监督式机器学习形式，在此形式下，基于观察值的数据值或特征的相似性，将观察值分组到群集中。这种就是非监督式机器学习，因为它不使用先前已知的标签值来训练模型。在聚类分析模型中，标签是群集&#…

阅读更多...

【Nacos】健康检查与环境隔离

【Nacos】健康检查与环境隔离

1. 健康检测 1.1 两种健康检查机制 Nacos作为注册中心,需要感知服务的健康状态,才能为服务调用方提供良好的服务 Nacos 中提供了两种健康检查机制: 1. 客户端主动上报机制客户端通过心跳上报方式告知服务端(nacos注册中心)健康状态,默认心跳间隔5秒:nacos会在超过15秒未收…

阅读更多...

内网穿透之EW使用、判断服务器是否出网

内网穿透之EW使用、判断服务器是否出网

环境搭建使用的是下面文章的环境记一次学习--内网穿透-CSDN博客 ew代理然后同样通过thinkphp漏洞写入文件，然后通过蚁剑连接然后上传ew的Linux版本，然后加权执行一层代理正向代理设置正向代理（在ubuntu上）&#xff0…

阅读更多...

推荐文章

最新文章