逻辑回归变量系数可为负数吗?应该如何解释?

news2024/9/20 12:34:26

之前很多学员来问逻辑回归变量系数是否都应该为正数,如果出现负的变量系数该怎么办?是否需要重新建模?这些学员都是在网上搜索时,被错误信息误导。网上信息可以随意转载,且无人审核对错。我见过最多情况时很多文章正确信息夹杂着错误或不准确信息。今天我们来谈一下逻辑回归变量系数正负的问题。

图片

逻辑回归模型中的变量系数可以是负数。在逻辑回归中,变量系数表示了自变量对因变量的影响程度,它的正负号表示了影响的方向。正系数表示自变量增加会增加因变量的概率,负系数则表示自变量增加会减少因变量的概率。因此,负系数在逻辑回归模型中是合理存在的。

为了更好解释,我展示了英文原文释义Negative coefficients in a logistic regression model translate into odds ratios that are less than one (viz., (0,1)). That in turn, means that the predicted probability is decreasing as the covariate increases.

与预测变量 X 相关的逻辑回归系数 β 是 X 中每单位变化产生结果的对数几率的预期变化。因此,将预测变量增加 1 个单位(或从 1 个级别到下一个级别)会乘以具有以下结果的几率:结果为 e β。

这是一个例子:

假设我们要研究吸烟10年与心脏病的风险。下表显示了使用吸烟作为预测因子来模拟心脏病存在的逻辑回归的摘要:

图片

问题是:如何解读吸烟系数:β=0.38?

首先请注意,该系数具有统计显着性(与 p 值 < 0.05 相关),因此我们的模型表明吸烟确实会影响 10 年患心脏病的风险。因为它是一个正数,我们可以说吸烟会增加患心脏病的风险。

但增加多少呢?

1. 如果吸烟是一个二元变量(0:不吸烟者,1:吸烟者):

那么:e β = e 0.38 = 1.46 将是吸烟与心脏病风险相关的比值比。

这意味着:吸烟组患心脏病的几率是不吸烟组的1.46倍。

或者我们可以这样说:

吸烟组患心脏病的几率比不吸烟组高 46% (1.46 – 1 = 0.46)。

如果心脏病是一种罕见的结果,那么优势比就可以很好地近似相对风险。在这种情况下我们可以说:

与不吸烟者相比,吸烟者患心脏病的概率增加 1.46 倍。

或者我们可以这样说:

与不吸烟组相比,吸烟组患心脏病的相对风险高出 46%。

负系数注释:
如果 β = – 0.38,则 e β = 0.68,解释为:吸烟与心脏病相对风险降低32% (1 – 0.68 = 0.32)相关。

为了解释具有多个级别的分类预测变量,我撰写了以下文章:R 中的逻辑回归(带有分类变量)。

如何解释标准误?

标准误差是逻辑回归系数不确定性的度量。它对于计算相应系数的 p 值和置信区间非常有用。

从上表中我们可以得到:SE = 0.17。

我们可以使用以下公式计算 95% 置信区间:

95% 置信区间= exp(β ± 2 × SE) = exp(0.38 ± 2 × 0.17) = [ 1.04, 2.05 ]

所以我们可以说:

我们有 95% 的信心认为,吸烟者患心脏病的几率比不吸烟者平均高 4 至 105%(1.04 – 1 = 0.04 和 2.05 – 1 = 1.05)。

或者,更宽松地说:

根据我们的数据,与不吸烟者相比,我们预计吸烟者患心脏病的几率会增加 4% 至 105%。

如何解释拦截?

截距为 β 0 = -1.93,应假设模型中所有预测变量的值为 0 来解释它。

如果我们使用以下公式计算逆 logit,则截距可以很容易地用概率(而不是几率)来解释:

e β 0 ÷ (1 + e β 0 ) = e -1.93 ÷ (1 + e -1.93 ) = 0.13,因此:

不吸烟者在未来10年内患心脏病的概率是0.13。

即使不计算这个概率,如果我们只看系数的符号,我们就知道:

  • 如果截距有负号:那么得到结果的概率将< 0.5。

  • 如果截距有正号:那么得到结果的概率将 > 0.5。

  • 如果截距等于0:那么得到结果的概率恰好为 0.5。

有关如何解释各种情况下截距的更多信息,请参阅我的另一篇文章:解释逻辑回归截距。

2. 如果吸烟是一个数值变量(终生使用烟草量,以千克为单位)

然后:e β (= e 0.38 = 1.46) 告诉我们预测变量(吸烟)每变化 1 个单位,结果(心脏病)的几率将发生多大变化。

所以:

一生吸烟量增加 1 公斤,患心脏病的几率就会增加 1.46 倍。

或者同样:

一生吸烟量增加 1 公斤,患心脏病的几率就会增加 46%。

解释标准化变量的系数

标准化变量是重新调整平均值为 0、标准差为 1 的变量。这是通过减去变量的每个值的平均值并除以标准差来完成的。

标准化会产生可比的回归系数,除非模型中的变量具有不同的标准差或遵循不同的分布(有关更多信息,我推荐我的两篇文章:标准化与非标准化回归系数以及如何评估线性和逻辑回归中的变量重要性)。

无论如何,当您的模型中有超过 1 个预测变量,每个预测变量都以不同的尺度进行测量,并且您的目标是比较每个预测变量对结果的影响时,标准化很有用。

标准化后,具有最大系数的预测变量 X i是对结果 Y 影响最重要的预测变量。

然而,标准化系数本身并没有直观的解释。因此,在上面的示例中,如果吸烟是标准化变量,则解释为:

吸烟每增加 1 个标准差,患心脏病的几率就会增加46% (e β = 1.46)。

3. 如果吸烟是序数变量(0:不吸烟者,1:轻度吸烟者,2:中度吸烟者,3:重度吸烟者)

有时将吸烟分为几个有序类别是有意义的。这种分类允许 10 年患心脏病的风险从一个类别改变到下一个类别,并迫使其在每个类别内保持恒定,而不是随着吸烟习惯的每一个微小变化而波动。

在这种情况下,系数 β = 0.38 也将用于计算 e β (= e 0.38 = 1.46),其解释如下:

吸烟量从一级增加到一级会使患心脏病的几率增加 1.46 倍。

或者,我们可以说:

吸烟量从一级增加到一级会导致患心脏病的几率增加 46%。

重要提示:

关于统计显着性和 p 值:

如果模型中包含 20 个预测变量,则平均有 1 个预测变量具有统计显着性 p 值 (p < 0.05),这只是偶然的。

所以要注意:

  • 仅根据 p 值从逻辑回归模型中包含/排除变量。

  • 仅仅因为它们的 p 值小于 0.05,就将统计效应标记为“真实”。

如果你得到一个非常大的逻辑回归系数怎么办?

在上面的示例中,如果我们想研究吸烟对心脏病的影响,并且样本中的大多数参与者都是非吸烟者,则可能会出现非常高的系数和标准误差。这是因为高度倾斜的预测变量更有可能产生完美分离的逻辑模型。

因此,为了研究自变量 X 对结果 Y 的影响,需要自变量 X 具有一定的可变性。因此,在对数据进行建模之前,请确保您做好数据的前期描述性统计工作,保证数据合理性。

如果大家对逻辑回归和评分卡知识感兴趣,欢迎大家收藏和报名《python信用评分卡建模(附代码)》课程,课程详细介绍了逻辑回归的每个知识细节,包括woe编码,多种策略分箱,iv统计,并有实战数据集和Python代码实现。具体目录大家可微信扫码查阅了解。

 版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/821992.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软工导论知识框架(三)结构化的设计

一.传统软件工程方法学采用结构化设计技术&#xff08;SD&#xff09; 从工程管理角度结构化设计分两步&#xff1a; 概要设计&#xff1a; 将软件需求转化为数据结构和软件系统结构。详细设计&#xff1a;过程设计&#xff0c;通过对结构细化&#xff0c;得到软件详细数据结构…

dubbo-helloworld示例

1、工程架构 2、创建模块 &#xff08;1&#xff09;创建父工程,引入公共依赖 pom.xml依赖 <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></depende…

MultipartFile 获取文件名、文件前缀、文件后缀、文件类型

测试 debug 方法 RequestMapping(value "/test",method RequestMethod.POST)public void fileUpload(MultipartFile file){// 文件名String originalFilename file.getOriginalFilename();// 文件名前缀String fileName file.getOriginalFilename().substring(0,…

第5讲:VBA中OFFSET函数的利用

【分享成果&#xff0c;随喜正能量】幸福从来不是跟别人比来的&#xff0c;追求不同&#xff0c;各有活法&#xff0c;开心了就笑&#xff0c;累了就休息&#xff0c;日子安稳踏实就是最大的幸福。做人就怕尊严扫地&#xff0c;保留一点做人的尊严&#xff0c;是人生最大的本钱…

C语言每日一题

今天分享的是一道牛客网上面的题目&#xff0c;链接在下面 有序序列合并 这道题做法有很多&#xff0c;最简单的是合并一起&#xff0c;然后用排序就行了&#xff0c;今天将一个最高效的办法&#xff0c;思路是两个数组第一项进行比较&#xff0c;小的先输出&#xff0c;输出的…

Mac上命令

1. block端口&#xff1a; sudo cp /etc/pf.conf /etc/pf443.conf 编辑pf443.conf&#xff0c;vim /etc/pf443.conf&#xff0c;如 block on en0 proto udp from any to any port 9000 # block UDP port 9000 block on en0 proto tcp from any to any port 5004 # bloc…

InnoDB引擎底层逻辑讲解——后台线程

1.后台线程 后台线程的作用就是将innodb存储引擎缓冲池中的数据&#xff0c;在合适的时机刷新到磁盘文件当中。innodb存储引擎后台的线程主要分为四类&#xff1a;

Golang之路---02 基础语法——函数

函数 函数定义 func function_name( [parameter list] ) [return_types] {函数体 }参数解释&#xff1a; func&#xff1a;函数由 func 开始声明function_name&#xff1a;函数名称&#xff0c;函数名和参数列表一起构成了函数签名。[parameter list]&#xff1a;参数列表&a…

Istio 安全 mTLS认证 PeerAuthentication

这里定义了访问www.ck8s.com可以使用http也可以使用https访问&#xff0c;两种方式都可以访问。 那么是否可以强制使用mtls方式去访问&#xff1f; mTLS认证 PeerAuthentication PeerAuthentication的主要作用是别人在和网格里的pod进行通信的时候&#xff0c;是否要求mTLS mTL…

信息学奥赛一本通——1258:【例9.2】数字金字塔

文章目录 题目【题目描述】【输入】【输出】【输入样例】【输出样例】 AC代码 题目 【题目描述】 观察下面的数字金字塔。写一个程序查找从最高点到底部任意处结束的路径&#xff0c;使路径经过数字的和最大。每一步可以从当前点走到左下方的点也可以到达右下方的点。 在上面…

web前端开发工程师岗位的主要职责八篇

web前端开发工程师岗位的主要职责1 职责&#xff1a; 1、负责web前端系统和功能的开发、调试和维护&#xff0c;前端技术框架和js等互动效果开发; 2、负责公司现有项目和新项目的前端修改调试和开发工作; 3、根据工作安排高效、高质地完成代码编写&#xff0c;确保符合规范…

计算机视觉(六)图像分类

文章目录 常见的CNNAlexnet1乘1的卷积 VGG网络Googlenet&#xff08;Inception V1、V2、V3&#xff09;全局平均池化总结 Resnet、ResnextResNet残差网络ResNeXt网络 应用案例VGGResnet 常见的CNN Alexnet DNN深度学习革命的开始 沿着窗口进行归一化。 1乘1的卷积 VGG网络…

45.ubuntu Linux系统安装教程

目录 一、安装Vmware 二、Linux系统的安装 今天开始了新的学习&#xff0c;Linux,下面是今天学习的内容。 一、安装Vmware 这里是在 Vmware 虚拟机中安装 linux 系统&#xff0c;所以需要先安装 vmware 软件&#xff0c;然 后再安装 Linux 系统。 所需安装文件&#xff1a;…

Blueprint —— 蓝图通信

在使用蓝图时&#xff0c;如需在不同蓝图间传递或共享信息&#xff0c;此时就需要使用蓝图通信&#xff08;Blueprint Communication&#xff09;&#xff1b; 一&#xff0c;变量引用 创建变量&#xff0c;类型为指定对象的引用&#xff0c;默认值设置为指定对象的实例&#x…

多线程(JavaEE初阶系列7)

目录 前言&#xff1a; 1.常见的锁策略 1.1乐观锁和悲观锁 1.2轻量级锁和重量级锁 1.3自旋锁和挂起等待锁 1.4互斥锁与读写锁 1.5可重入锁与不可重入锁 1.6公平锁与非公平锁 2.CAS 2.1什么是CAS 2.2自旋锁的实现 2.3原子类 3.synchronized 3.1synchronized的原理以…

探秘二叉树后序遍历:从叶子到根的深度之旅

本篇博客会讲解力扣“145. 二叉树的后序遍历”的解题思路&#xff0c;这是题目链接。 本题的思路是&#xff1a; 先创建一个数组&#xff0c;用来存储二叉树后序遍历的结果。数组的大小跟树的结点个数有关。树的结点个数可以使用递归实现&#xff0c;即总个数左子树结点个数右…

踩坑(5)整合kafka 报错 java.net.UnknownHostException: 不知道这样的主机

java.net.UnknownHostException: 不知道这样的主机。 (5c0c3c629db9)at java.base/java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method) ~[na:na]at java.base/java.net.InetAddress$PlatformNameService.lookupAllHostAddr(InetAddress.java:933) ~[na:na]at java.ba…

windows如何上架ios应用到app store

Application Uploader iOS App上架工具是一款非常好用的针对iOS苹果应用程序软件开发的实用编程工具&#xff0c;它的主要作用是帮助用户进行快速的程序应用设计和程序应用调试&#xff0c;节省用户进行软件开发耗费的不必要时间&#xff01; ​ 编辑切换为居中 添加图片注释&…

【宝藏系列】Curl 用法指南大全

【宝藏系列】Curl 用法指南大全 简介 curl 是常用的命令行工具&#xff0c;用来请求 Web 服务器。它的名字就是客户端&#xff08;client&#xff09;的 URL 工具的意思。 它的功能非常强大&#xff0c;命令行参数多达几十种。如果熟练的话&#xff0c;完全可以取代 Postman 这…

基于STM32CubeMX和keil采用通用定时器中断实现固定PWM可调PWM波输出分别实现LED闪烁与呼吸灯

文章目录 前言1. PWM波阐述2. 通用定时器2.1 为什么用TIM142.2 TIM14功能介绍2.3 一些配置参数解释2.4 PWM实现流程&中断2.4.1 非中断PWM输出(LED闪烁)2.4.2 中断PWM输出(LED呼吸灯) 3. STM32CubeMX配置3.1 GPIO配置3.2 时钟配置3.3 定时器相关参数配置3.4 Debug配置3.5 中…