阈值回归模型(Threshold Regression Model)及R实现

news2024/12/26 11:01:51

阈值回归模型是一类回归模型,其中预测变量与结果以阈值依赖的方式相关联。通过引入一个阈值参数(也称为转折点),阈值回归模型提供了一种简单而优雅、可解释的方法来建立结果和预测变量之间某些非线性关系的模型。在生物医学领域中,阈值回归模型有许多应用,如人类疫苗研究中免疫学检测数据分析,在这里感染风险和免疫反应生物标志物之间存在着依赖于阈值的关联。

阈值回归模型可以采用许多形式,具体取决于在阈值处发生的情况。例如,下图展示了四种类型的阈值效应:步进(step)、铰链(hinge)、分段(segmented)和“stegmented”。步进和铰链模型是两种最基本的阈值效应形式,在阈值之前斜率为零。分段模型通过允许阈值之间的非零斜率来推广铰链模型;而分段模型,顾名思义,可以被视为步进和分段模型的融合。

Image

四种阈值回归模型的方程如下:

Image

这里,e是阈值参数,x是具有阈值效应的预测变量,z表示额外的预测变量。当x > e时,I(x > e) = 1;否则为0。而(x - e)+表示铰链函数,在x > e时等于x - e,在其他情况下等于0。阈值回归模型与分段分析相关但不同,后者处理时间序列数据,并主要关注在自然轴线(如时间或染色体上的位置)上检测结构性变化。许多分段分析问题并非回归问题。在分段分析回归问题中,将时间序列数据按照转折点划分成区间;允许结果和所有预测因子之间的关系在各个区间内发生改变。换句话说,在改变点分析回归问题中同时对所有预测因子进行了阈值处理。另一方面,阈值回归模型基本上涉及建立非线性模型。从这个角度来看,阈值回归模型更类似于其他非线性回归方法(例如:拟合样条法)。

阈值模型和样条模型都能够建立结果和预测因子之间的非线性关系, 它们主要差异在于灵活性和易解释程度。例如,以铰链模型和具有两个自由度的自然三次样条为例。两者都有两个自由度;在铰链模型中,两个相关参数是β1和e。与铰链模型相比,样条模型更加灵活,但当这两种模型都能够提供合理的拟合时,铰链模型更容易解释。

虽然有许多软件程序可用于变点分析和回归样条模型,但适用于阈值回归模型的软件相对较少。目前最好的实现是R包segmented,它支持铰链和分段模型,并允许多个阈值。chngpt包通过提供三个独特贡献来补充segmented包:

(1) 它支持所有四种类型的阈值效应,并支持在受到阈值处理的预测因子和未经过阈值处理的预测因子之间进行交互项建模; 

(2) segmented中使用了非平滑准则函数一级近似搜索方法,而chngpt提供两种替代搜索方法:精确法优化准则函数以获得全局最优解;平滑法利用基于逻辑函数平滑函数来近似准则函数。精确法保证找到全局最优解,但当样本量很大时可能会很慢;而像segmented一样快速但可能只能找到局部最优解;

(3) segmented不提供考虑阈值估计不确定性的置信区间,而chngpt可以提供这些信息。后者还包括model robust置信区间,即使数据生成模型并非真正的阈值模型,也旨在提供适当的覆盖率。

chngpt包的使用方法如下:

#安装chngpt包

install.packages(‘chngpt’)

library(‘chngpt’)

1. 线性回归模型

fit=chngptm(formula.1=Volume~1, formula.2=~Girth, family="gaussian", data=trees, type="segmented", var.type="bootstrap", weights=NULL)

formula.2 and formula.1: 阈值变量及模型的剩余参数 

type: 阈值模型的类别 

var.type: 使用bootsratp方式计算置信区间

weights: 可估计权重

est.method defaults to fastgrid and is recommended 

summary(fit)

Image

plot(fit)

结果如Figure 1所示。

Image

Figure 1: (top) 木材体积与周长的散点图。灰色的线表示虚线的分段模型。 (bottom) 子模型的对数似然与阈值参数的关系。

为验证是否有转折点,运行以下代码:

test=chngpt.test(formula.null=Volume~1, formula.chngpt=~Girth, trees, type="segmented", family="gaussian")

test

Image

第一行给出进行的测试类型是默认的最大似然比测试,候选转折点为16。

2. Logistic回归模型

估计MTCT数据集中NAb_SF162L的铰链型变化点的逻辑回归模型。

library(splines)

fit=chngptm(formula.1=y~birth, formula.2=~NAb_SF162LS, family="binomial", dat.mtct, type="hinge", est.method="smoothapprox", var.type="robust", aux.fit=glm(y~birth + ns(NAb_SF162LS,3), dat.mtct, family="binomial"), weights=NULL)

formula.2 and formula.1:阈值变量和模型的其他部分

type:阈值模型的类型

est.method:推荐使用smoothapprox 

var.type:建议采取稳健的置信区间

aux.fit:稳健方差估计所需的

weights:提供权重值

summary(fit)

Image

为了验证是否有change point,运行以下函数:

test=chngpt.test(formula.null=y~birth, formula.chngpt=~NAb_SF162LS, dat.mtct, type="hinge", family="binomial", main.method="score")

test

Image

第一行给出进行的测试类型是默认的最大似然比测试,候选转折点为7.3734。

该方法被多项研究使用,如一项探索维生素D补充后的临床和生物标志特征的研究中(Clinical and biomarker modifiers of vitamin D treatment response: the Multi-Ethnic Study of Atherosclerosis),使用阈值回归模型发现,在25(OH)D浓度为21 ng/mL(95%CI:13,31)时,其与PTH的变化有分段阈值效应。

Image

在四种类型的阈值模型中进行选择是一个复杂的问题。我们可以把这个问题分为两部分:(i) 阈值处是否发生跳跃;(ii) 斜率参数空间是否应该受到限制。第一个问题特别具有挑战性。对于某些过程,例如染色体上重组事件的发生,自然会出现跳跃。对于其他许多过程,真正的基本过程可能不是不连续的;尽管如此,不连续的阈值模型可以是对预测值的小范围内响应的突然转变的有用近似。使用何种模型的决定应该是基于统计学证据和科学考虑的结合。该种方法为非线性关联中阈值的寻找提供了一种切实可行的方案。

参考文献:

1. Fong Y, Huang Y, Gilbert PB, Permar SR. chngpt: threshold regression model estimation and inference. BMC Bioinformatics. 2017 Oct 16;18(1):454. doi: 10.1186/s12859-017-1863-x

2. Hsu S, Prince DK, Williams K, Allen NB, Burke GL, Hoofnagle AN, Li X, Liu KJ, McClelland RL, Michos ED, Psaty BM, Shea SJ, Rice KM, Rotter JI, Siscovick D, Tracy RP, Watson KE, Kestenbaum BR, de Boer IH. Clinical and biomarker modifiers of vitamin D treatment response: the Multi-Ethnic Study of Atherosclerosis. Am J Clin Nutr. 2022 Mar 4;115(3):914-924. doi: 10.1093/ajcn/nqab390

搜索公众号“单细胞学会”,获取更多信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1009926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pyramid Scene Parsing Network–CVPR,2017论文解读及其pytorch代码

文章目录 Pyramid Scene Parsing Network--CVPR,2017一、背景介绍二、网络结构和优化方法三、实验结果 Pyramid Scene Parsing Network–CVPR,2017 Github代码链接 一、背景介绍 现阶段随着数据集制作精细化、标签种类变多、具有语义相似标签等导致出…

继承的笔记

继承 对象代表什么, 就得封装对应的数据, 并提供数据对应的行为 对于两种不同的类, 但是具有很多共同的属性的时候我们就想着用继承, 我们可以将共同的属性放置在一个类中, 然后, 只需要新建两个类, 继承共有的类, 然后单独写自己的属性特点 继承类 Java 中提供了一个关键字…

Hadoop-Hbase

1. Hbase安装 1.1 安装zookeeper、 hbase 解压至/opt/soft,并分别改名 配置环境变量并source生效 #ZK export ZOOKEEPER_HOME/opt/soft/zk345 export PATH$ZOOKEEPER_HOME/bin:$PATH #HBASE_HOME export HBASE_HOME/opt/soft/hbase235 export PATH$HBASE_HOME/b…

【OS】操作系统课程笔记 第三章 进程管理

3.1 多道程序设计 吞吐率:衡量一个系统效率的一个指标 采用多道程序设计可以显著提高吞吐率: 但是,并不是内存程序数量越多越好,下面有三点否定: 内存的容量限制了系统可同时处理程序的数目设备数量有限程序道数过多…

✔ ★ 算法基础笔记(Acwing)(三)—— 搜索与图论(17道题)【java版本】

搜索与图论 1. DFS1. 排列数字(3分钟)2. n-皇后问题 2. BFS&#xff08;队列&#xff09;1. 走迷宫二刷总结&#xff08;队列存储一个节点pair<int,int>&#xff09;三刷总结 走过的点标记上距离(既可以记录距离&#xff0c;也可以判断是否走过) ★ ★ 例题2. 八数码二刷…

离线安装PX4日志分析工具Flight Review

使用Flight Review在线分析日志&#xff0c;有时会因为网络原因无法使用 使用离线安装的方式使用Flight Review&#xff0c;可以在无需网络的情况下使用Flight Review sudo apt-get install sqlite3 fftw3 libfftw3-devsudo apt-get install libatlas3-basegit clone --recur…

【Linux核心宝典】Linux 系统目录结构详解 - 01

&#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号&#xff1a;程序员洲洲。 &#x1f388; 本文专栏&#xff1a;本文…

Linux基础入门

一、操作系统安装方法 1、使用u盘安装 工具&#xff08;前提条件&#xff09;&#xff1a; <1>u盘 <2>镜像文件iso/msdn.itellyou.cn <3>把u盘做成PE&#xff1a;大白菜/老毛桃/winPE/软碟通/ultralSO 设置BIOS&#xff1a;通过u盘启动 安装系统&…

Vue项目中实现拖拽排序效果-demo

在Vue3中实现拖拽排序&#xff0c;可以借助一些浏览器自带的API&#xff0c;以及一些Vue3的特性&#xff1a; 使用<template>标签中的v-for指令渲染出一个列表&#xff0c;每个列表项绑定一个draggable属性&#xff0c;使其能够被拖拽。 <template><ul><…

一次I/O操作的过程

什么是IO呢&#xff1f; IO&#xff0c;英文全称是Input/Output&#xff0c;翻译过来就是输入/输出。平时我们听得挺多&#xff0c;就是什么磁盘IO&#xff0c;网络IO。那IO到底是什么呢&#xff1f;是不是有种懵懵懂懂的感觉呀&#xff0c;好像大概知道它是什么&#xff0c;又…

ARIMA模型

1、简介 ARIMA模型(Autoregressive Integrated Moving Average model)&#xff0c;差分整合移动平均自回归模型&#xff0c;又称整合移动平均自回归模型&#xff0c;时间序列预测分析方法之一。ARIMA(p,d,q)中&#xff0c;AR是"自回归"&#xff0c;p为自回归项数;MA…

二叉树题目:最大层内元素和

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;最大层内元素和 出处&#xff1a;1161. 最大层内元素和 难度 4 级 题目描述 要求 给定一个二叉树的根结点 ro…

zookeeper可视化工具ZooInspector用法

最近在做银行的项目&#xff0c;用到了thrift&#xff0c;rpc和zookeeper&#xff0c;所有应用都是注册到zookeeper上的&#xff0c;想知道哪些应用注册上了&#xff0c;就用到ZooInspector这个可视化的工具。 1&#xff0c;下载 链接&#xff1a;https://issues.apache.org/…

flex弹性盒模型与阿里图标的使用

华子目录 flex布局flex布局原理flex使用三要素 阿里图标&#xff08;字体&#xff09; flex布局 相关学习网站&#xff1a;http://c.biancheng.net/css3/flex.html 1.flex是当前最主流的布局方式&#xff1a;用它布局起来更方便&#xff0c;取代了浮动的作用。 2.浮动布局有缺…

BUG:阿里巴巴图标库引入链接后,icon有时候会不显示的话svg下载到本地使用

忽然icon图标就不显示&#xff0c;但是代码、icon链接地址都没有发生变化 解决办法&#xff1a;将icon图标下载到本地&#xff0c;记住前后引用本地的名字要保持一致

学习jQuery库的第一天

简介 什么是 jQuery &#xff1f; jQuery 是一个广泛使用的 JavaScript 库。它简化了网页开发中常见的许多任务&#xff0c;例如 HTML 文档遍历、操作 HTML 元素、处理事件、动画效果、Ajax 网络请求等。通过使用 jQuery&#xff0c;开发人员可以更加高效地编写跨浏览器兼容的…

如何制作一个成功的超市购物小程序

随着互联网的普及和移动支付的便捷性&#xff0c;越来越多的消费者选择在网上购物&#xff0c;这也促使越来越多的商家开始搭建自己的小程序商城。对于超市便利店来说&#xff0c;拥有一个便捷、易用的小程序商城能够吸引更多的消费者&#xff0c;提高销售效率。那么如何快速搭…

MyBatis初级

文章目录 一、mybatis1、概念2、JDBC缺点2.1、之前jdbc操作2.2 、原始jdbc操作的分析 3、mybatis的使用3.1、导入maven依赖3.2、新建表3.3、实体类3.4、编写mybatis的配置文件3.5、编写接口 和 映射文件3.6、编写测试类3.7、注意事项 4、代理方式开发5、mybatis和spring整合5.1…

数学实验-最佳分数近似值(Mathematica实现)

一、实验名称&#xff1a;最佳分数近似值 二、实验环境&#xff1a;Mathematica 10.3软件 三、实验目的&#xff1a;研究怎样用分数近似值去对给定的无理数作最佳逼近&#xff0c;“最佳”就是既要误差小&#xff0c;又要分母小。我们首先需要对“最佳”定出具体而明确的标准…

动态IP代理是什么?一文看懂动态代理IP

一、什么是动态IP代理&#xff1f; 动态IP代理是一种代理服务&#xff0c;而动态IP是由ISP动态分配给用户的IP地址&#xff0c;这些IP地址会周期性地更改。每次链接互联网时&#xff0c;用户会被分配一个新的IP地址&#xff0c;因而也称为”轮换IP”。 IP地址轮换是一个过程&…