双变量probit模型

news2025/1/13 13:13:26

1. Probit模型

1.1 模型含义

假设个体只有两种选择,y=1或y=0。影响选择的变量都包括在向量x中。即线性概率模型为

y_{i}=x_{i}^{'}\beta +\varepsilon _{i}

y值服从两点分布

P(y=1|x)=F(x,\beta )

P(y=0|x)=1-F(x,\beta )

F(x,\beta )被认为是连接函数,函数选择具有一定的灵活性。如果F(x,\beta )为标准正态的累积分布函数,则模型成为Probit模型;如果F(x,\beta )为逻辑分布的累积分布函数,则为Logit模型。其实,这两种分布函数的公式很相似,函数值相差也并不大,唯一的区别在于逻辑概率分布函数的尾巴比正态分布粗一些。然而,如果因变量是序次变量,回归时只能用有序Probit模型。有序Probit可以看作是Logit的扩展。

Probit模型是一种服从正态分布的非线性模型,可使用最大似然法进行估计。

1.2 如何衡量二值模型的拟合优度

由于不存在平方和分解公式,故无法计算R^{2},使用由McFadden(1974)提出:

R^{2}=\frac{lnL_{0}-lnL_{1}}{lnL_{max}-lnL_{0}}

其中lnL_{1}为原模型的对数似然函数之最大值,而lnL_{0}为以常数项为唯一解释变量的对数似然函数之最大值。

1.2 Probit模型的缺点

Probit回归的偏回归系数含义为,其他自变量保持不变时,该自变量每增加一个单位,出现某个结果的概率密度函数的改变值,这很难以理解。因此Probit模型的回归系数经济意义很难解释,不够直观;而Logistic回归的偏回归系数解释起来更加直观和易于理解,其经济意义也更加明显,所以,一般情况下,Logit模型比Probit模型更简单,应用更广泛。

1.4 可用Probit回归替代Logistic回归的情况

(1)自变量中连续型变量较多。
(2)残差符合正态分布。

2. Bivariate Probit 模型

该模型是Probit模型的拓展,适用于模型中有两个结果变量且假定方程组的随机扰动项之间存在相关性,模型中的方程需同时进行估计。双变量Probit模型是两个二元变量结果的联合模型。如果这两个二元变量的结果是不相关的,我们可以估计两个独立的 Probit 模型,如果这两个二元变量的结果是相关的,使用Probit 模型会导致估计结果偏差并影响结论,则需要使用 Bivariate Probit 模型。比如两个被解释变量,一个是病人是否去看医生,一个是病人是否住院。“看医生”和“住院”两件事通常是相关的,即probit方程的扰动想之间可能存在相关性。

其中,Y_{1}^{*}与 Y_{2}^{*} 为不可观测的潜变量, 扰动项(\mu _{1},\mu _{2})服从二维联合正态分布, 期望为 0 , 方差为 1 , 而相关系数为 \rho, 即

可观测变量 Y_{1}与 Y_{2}由以下方程决定:

当 (24) 式的两个方程的解释变量完全相同, 即 X_{1}=X_{2}时, 即为 “双变量 Probit 模型”。反之, 当两个方程的解释变量不完全相同, 即 X_{1}\neq X_{2}时, 该模型被称为 “似不相关双变量 Probit 模型”, 因为该模型中两个方程的唯一联系是扰动项的相关性。 若 \rho=0, 则该模型等价于两个单独的 Probit 模型。当 \rho≠0 时, 可写下(Y_{1}, Y_{2})的取值概率, 然后进行最大似然估计。比如:

其中, \phi (z_{1},z_{2},\rho ) 和 \Phi (z_{1},z_{2},\rho ) 分别为标准化的二维正态分布的概率密度函数 (PDF) 和累积分布函数 (CDF), 这个标准化的二维正态分布的期望为 0 , 方差为 1 , 而相关系数为\rho。 类似地, 可计算出 

对不同的个体计算(Y_{1}, Y_{2})的概率, 由此得到所有个体的 (Y_{1}, Y_{2})的概率(这里每一个个体对应的(Y_{1}, Y_{2})的概率是唯一的)。将它们全部相乘得到模型的似然函数, 取对数得到对数似然函数, 再由对数似然函数最大化一阶条件可以得到\frac{\partial lnL}{\partial \beta _{1}}=0 ,\frac{\partial lnL}{\partial \beta _{2}}=0,\frac{\partial lnL}{\partial \rho }=0三个方程, 联立它们就可以求解出参数 \beta _{1},\beta _{2},\rho的值, 当然这也需要数值方法计算得到。最后, 对原假设H_{0}:\rho =0进行检验, 可判断有无必要使用双变量 Probit 模型, 或估 计两个单独的 Probit模型。

双变量Probit的stata命令为:
biprobit y1 y2 x1 x2 x3,r    (解释变量完全相同)
biprobit (y1=x1 x2)(y2=x1 x3),r nolog   (解释变量不完全相同)

3. 部分可观测的双变量 Probit 模型

有时候, 我们无法同时观测到 Y_{1} 与Y_{2}  , 而只能看到 Y_{1} 与Y_{2}  都取值为 1 的情况。比如, 估计实习生在某公司实习后留任的概率。显然, “留任” 既取决于该公司是否向该实习生发聘书 (公司的二值选择), 也取决于该实习生是否愿意在此公司工作 (实习生的二值选择)。 而我们只能观测到该实习生是否留任了。如果留任, 则Y_{1}与 Y_{2}  都取值为 1; 如果末留任, 则只知道Y_{1} 与 Y_{2}  至少有一个为 0。在此情况下, 公司的二值选择与实习生的二值选择可能相关, 故适用于双变量 Probit 模型的框架。但对于  Y_{1} 与Y_{2}  只有其乘积 Y_{1}Y_{2} 可观测, 要么  Y_{1}\times Y_{2}=1Y_{1}\times Y_{2}=0,此时定义Z=Y_{1}\times Y_{2}

我们对 \beta _{1},\beta _{2},\rho做最大似然估计

参数\beta _{1},\beta _{2},\rho的对数似然函数的最大化一阶条件分别为

biprobit (y1=x1 x2)(y2=x1 x3),r partial difficult

 partial表示部分可观测的双变量probit,但加上这个选择后可能使得数值计算不收敛。如果不收敛,可使用difficult表示在最大化目标函数存在非凹区域的情况下,使用另一种迭代方法。

在实际中我们只能观测到Y_{1}\times Y_{2},记Z_{1}=Y_{1}\times Y_{2},定义Z_{2}=Z_{1}然后再进行估计

gen z2=z1
biprobit(z1 =x1 x2)(z2=x1 x3),r partial difficult nolog

3.1 模型的优势

(1)双变量Probit模型能够解决两个方程间的内在联系问题,提高估计的效率。
(2)双变量Probit模型是解决对两个虚拟变量同时考虑其发生的概率的模型,当两个Probit方程的扰动项之间可能存在相关性,如果对这两个被解释变量分别进行建模,则估计结果会损失效率。也就是说当对两个相关的被解释变量进行研究时,比如上述提到的“看医生”和“住院”这两件相关联的事情,就可以使用双变量Probit模型,避免估计结果效率的损失,使估计结果更为准确。

3.2 模型的缺点

(1)双变量Probit模型必须假设随机变量服从正态分布,相比与Logit模型,没有那么简单直接,应用更窄。
(2)假设条件比较严格,计算过程复杂,且有较多近似处理。
(3)在现实经济中,经济主体无法同时观测到y1和y2,只能观察到同时为1的情况。比如,估计实习生在某公司实习后留任的概率。我们一般只能观测到该实习生是否留任。
(4)存在稀有事件偏差。虽然使用MLE(比如Probit 或Logit)来估计二值选择模型是一致的,但在有限样本下(样本容量小于200) , Probit或Logit估计依然存在偏差。而且,如果存在稀有事件,则该偏差将进一步放大;导致即使样本容量达到数千,而偏差依然存在,称为“稀有事件偏差( rare event bias)”。例如战争、政变、革命、流行病、经济危机、百年一遇的灾害等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1363239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络嗅探器的设计与实现(2024)-转载

1.题目描述 参照 raw socket 编程例子,设计一个可以监视网络的状态、数据流动情况以及网络上传输 的信息的网络嗅探器。 2.运行结果 3.导入程序需要的库 请参考下面链接: 导入WinPcap到Clion (2024)-CSDN博客 4.参考代码 #define HAVE_REMOTE #define LINE_LEN …

【数据库原理】(11)SQL数据查询功能

基本格式 SELECT [ALL|DISTINCT]<目标列表达式>[,目标列表达式>]... FROM <表名或视图名>[,<表名或视图名>] ... [ WHERE <条件表达式>] [GROUP BY<列名 1>[HAVING <条件表达式>]] [ORDER BY <列名 2>[ASC DESC]];SELECT: 指定要…

WinForms中的UI卡死

WinForms中的UI卡死 WinForms中的UI卡死通常是由于长时间运行的操作阻塞了UI线程所导致的。在UI线程上执行的操作&#xff0c;例如数据访问、计算、文件读写等&#xff0c;如果耗时较长&#xff0c;会使得UI界面失去响应&#xff0c;甚至出现卡死的情况。 解决方法 为了避免…

061:vue中通过map修改一维数组,增加一些变量

第061个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下&#xff0c;本专栏提供行之有效的源代码示例和信息点介绍&#xff0c;做到灵活运用。 &#xff08;1&#xff09;提供vue2的一些基本操作&#xff1a;安装、引用&#xff0c;模板使…

系列二、GitHub中的Alpha、Beta、RC、GA、Release等各个版本

一、GitHub中的Alpha、Beta、RC、GA 1.1、概述 1.2、参考 https://www.cnblogs.com/huzhengyu/p/13905129.html

Qt——TCP UDP网络编程

目录 前言正文一、TCP二、UDP1、基本流程2、必备知识 三、代码层级1、UDP服务端 END、总结的知识与问题1、如何获取QByteArray中某一字节的数据&#xff0c;并将其转为十进制&#xff1f;2、如何以本年本月本日为基础&#xff0c;获取时间戳&#xff0c;而不以1970为基础&#…

Ps 滤镜:高反差保留

Ps菜单&#xff1a;滤镜/其它/高反差保留 Filter/Others/High Pass 高反差保留 High Pass滤镜常用于锐化、保护纹理、提取线条等图像编辑工作流程中。它的工作原理是&#xff1a;只保留显示图像中的高频信息&#xff08;即图像中的细节和边缘区域&#xff09;&#xff0c;而图像…

二分查找算法(指定数值的左右边界)

之前一直以为二分查找有什么难的&#xff0c;不就是确定左右边界&#xff0c;然后while循环求mid&#xff0c;大于mid的找右半边&#xff0c;小于mid的找左半边。直到最后相同了就是最后查找的结果了. 后来等真正用到二分查找算法的时候&#xff0c;发现问题远没有这么简单&…

【论文阅读笔记】ISINet: An Instance-Based Approach for Surgical Instrument Segmentation

1. 论文介绍 ISINet: An Instance-Based Approach for Surgical Instrument Segmentation ISINet&#xff1a;一种基于实例的手术器械分割方法 2020 MICCAI 【Paper】 【Code】 2.摘要 我们研究了机器人辅助手术场景中手术器械的语义分割任务。我们提出了基于实例的手术器械…

计算机Java项目|基于Springboot实现患者管理系统

作者主页&#xff1a;编程指南针 作者简介&#xff1a;Java领域优质创作者、CSDN博客专家 、掘金特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容&#xff1a;Java项目、毕业设计、简历模板、学习资料、面试题库、技术互助 文末获取源码 项目编号&#xff1a;KS-032…

Hello 2024

Hello 2024 A. Wallet Exchange 题意&#xff1a;Alice和Bob各有a和b枚硬币&#xff0c;每次他们可以选择交换硬币或者保留&#xff0c;然后扣除当前一枚手中的硬币&#xff0c;当一方没得扣另一方就赢了。 思路&#xff1a;Alice先手&#xff0c;所以当硬币和为奇数时Alice…

Java面试之并发篇(一)

1、前言 本篇主要总结JAVA面试中关于并发相关的高频面试题。本篇的面试题基于网络整理&#xff0c;和自己编辑。在不断的完善补充哦。 2、简述程序、进程、线程、的基本概念&#xff1f; 2.1、程序 程序&#xff0c;是含有指令和数据的文件&#xff0c;被存储在磁盘或其他的…

基于神经网络的手写汉字提取与书写评分系统研究

相关源码和文档获取请私聊QQ:3106089953 论文目录结构 目 录 摘 要 I Abstract II 目 录 IV 第1章 绪论 1 1.1. 研究背景与意义 1 1.2. 国内外研究现状 2 1.2.1. 文本定位技术研究现状 2 1.2.2. 手写汉字识别研究现状 3 1.2.3. 汉字书写质量评价方法研究现状 4 1.3. 本文所做工…

OS_lab——bochs源码的编译与安装

1. 实验环境VMware station 15 Ubuntu 14.04.6 32位。2. 实验步骤2.1 安装虚拟机&#xff0c;并在虚拟机根目录下编译并安装bochs环境。 2.2 使用bochs自带工具bximage创建虚拟软驱。 2.3 编写引导程序boot.asm并用nasm编译得到引导文件boot.bin和boot.com。 2.4 修改bochs…

Hadoop分布式文件系统(二)

目录 一、Hadoop 1、文件系统 1.1、文件系统定义 1.2、传统常见的文件系统 1.3、文件系统中的重要概念 1.4、海量数据存储遇到的问题 1.5、分布式存储系统的核心属性及功能含义 2、HDFS 2.1、HDFS简介 2.2、HDFS设计目标 2.3、HDFS应用场景 2.4、HDFS重要特性 2.4…

性能分析与调优: Linux 安装基于BPF的bcc-tools系统性能工具库

目录 一、实验 1.环境 2.agent服务器安装使用ELRepo安装依赖包 3.agent服务器安装基于BPF的bcc-tools系统性能工具库 二、问题 1.安装bcc-tools后执行命令报错 一、实验 1.环境 &#xff08;1&#xff09;主机 表1-1 主机 主机架构组件IP备注prometheus 监测 系统 pro…

【C++】- 类和对象(!!C++类基本概念!this指针详解)

类和对象 引入类类的定义类的访问限定操作符类的作用域类的实例化类对象模型this指针 引入类 在 C中&#xff0c;引入了一个新的定义----------类。类是一种用户自定义的数据类型&#xff0c;用于封装数据和行为。类可以看作是一个模板或蓝图&#xff0c;描述了一组相关的数据和…

JVM虚拟机的垃圾回收器(面试题)

1.什么是垃圾回收 垃圾回收主要说的是java会自动把程序在运行过程中产生的一些没有用的对象给回收掉&#xff0c;这样可以避免内存的浪费。 java主要是通过一个叫“根可达”的算法来识别这个对象是否可以被回收的&#xff0c;然后回收的算法也主要有三种&#xff1a;标记清除&a…

QT c++和qml交互实例

文章目录 一、demo效果图二、c和qml交互的基本方式1、qml访问C类对象 三、关键代码1、工程结构图2、c代码MainWindow.cppMainQuickView.cppStudentInfoView.cppStudentInfoModel.cpp 3、qml代码main.qmlMainQuickTopRect.qmlMainQuickMiddleRect.qmlMainQuickMiddleTableRect.q…

服务器cpu占用很高如何排查问题

前段时间&#xff0c;运维监控发现有个项目cpu占用很高&#xff0c;并且还在持续不断增长&#xff0c;服务不能正常响应&#xff0c;如下图&#xff1a; 在服务器上面安装了arthas&#xff0c;下载地址&#xff1a; https://alibaba.github.io/arthas/arthas-boot.jar 我使用了…