R语言逻辑回归预测分析付费用户

news2025/1/10 11:06:32

对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。 

 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

,时长06:48

最近我们被客户要求撰写关于逻辑回归预测的研究报告,包括一些图形和统计输出。对于付费用户预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出付费预测。这其实不是一个财务问题,是一个业务问题。

流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用场景的用户流失和预测里面去。

方法

回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

问题描述

我们尝试并预测用户是否可以根据数据中可用的人口信息变量使用逻辑回归预测月度付费是否超过 50K。

在这个过程中,我们将:

1.导入数据2.检查类别偏差3.创建训练和测试样本4.建立logit模型并预测测试数据5.模型诊断

检查类偏差

理想情况下,Y变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE 50K中的类的比例。

0 1 
24720 7841

显然,不同付费人群比例 有偏差 。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。

构建Logit模型和预测

确定模型的最优预测概率截止值默认的截止预测概率分数为0.5或训练数据中1和0的比值。但有时,调整概率截止值可以提高开发和验证样本的准确性。InformationValue :: optimalCutoff功能提供了找到最佳截止值,减少错误分类错误。

optCutOff <-optimalCutoff(testData$ABOVE50K, predicted)[1] => 0.71

模型诊断

错误分类错误

错误分类错误是预测与实际的不匹配百分比 。错误分类错误越低,模型越好。

misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)

[1] 0.0892

ROC曲线

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

上述型号的ROC曲线面积为89%,相当不错。

一致性

简单来说,在1-0 的所有组合中,一致性是预测对的百分比 ,一致性越高,模型的质量越好。

$Concordance [1] 0.8915107 $Discordance [1] 0.1084893 $Tied [1] -2.775558e-17 $Pairs [1] 45252896

上述型号的89.2%的一致性确实是一个很好的模型。

混淆矩阵

在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。

confusionMatrix(testData$ABOVE50K, predicted, threshold = optCutOff)

0 1 0 18849 1543 1 383 810

结论

这里仅仅介绍了模型的建立和评估。通过模型的结论,我们可以得到一些已经为公众所接受和熟知的现象是:付费和受教育程度、智力、年龄以及性别等相关。 基于此用户规模预测模型,结合用户的人口信息,即可粗略预估产品在一般情况下的收入情况, 从而判断就得到了付费用户预测模型,如果把收入分类转换成流失用户和有效用户,就得到了流失用户预测模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84103.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaScript内存管理及监控

1.1 内存定义 内存由可读写单元组成&#xff0c;表示一片可操作空间&#xff0c;开发者主动申请空间、使用空间、释放空间。内存主要存储变量等数据&#xff0c;局部变量当程序执行结束&#xff0c;且没有引用的时候就会随着消失&#xff0c;全局对象会始终存活到程序运行结束。…

【简单项目实战】用C++实现学生成绩管理系统

目录 ●功能介绍 ●案例 ●代码展示 ●结果展示 ●功能介绍 用 C设计一个程序&#xff0c;能提供下列功能: 1. 录入学生成绩信息。按照学号&#xff0c;姓名&#xff0c;语文&#xff0c;数学&#xff0c;英语的格式录入学生的成绩。 2.展示目前录入学生的成绩信息。以…

MeterSphere使用mock基础

目录 一、添加mock数据 1、进入页面添加 2、 添加单个mock 3、添加多个mock数据 二、运行mock 1、选择设置接口的TEST 2、选择mock环境 3、设置定义的mock参数运行 一、添加mock数据 1、进入页面添加 在接口定义页面&#xff0c;按下图1-2-3顺序添加 2、 添加单个mock…

[附源码]Nodejs计算机毕业设计基于JAVA人事管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分…

如何利用TL431设计一个可调电压源

TL431是一个三脚电压可控的稳压器件&#xff0c;常用的封装有TO-92&#xff0c;SOT-23&#xff0c;SOT-89&#xff0c;电路符号是这个&#xff0c; TL431常被用在参考电压/基准电压电路&#xff0c;用来替代稳压管 其中1脚是reference,2脚是Anode&#xff0c;3脚是Cathode TL4…

基于微信小程序的校园二手交易-计算机毕业设计

项目介绍 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;校园二手交易被用户普遍使用&#xff0c;为方便用户能…

最新版网络组件包:Rebex Total Pack for .NET

Rebex Total Pack for .NET 组件包&#xff1a; Rebex 的所有 .NET 组件都在一个包中&#xff1a;SFTP、FTP、HTTPS、IMAP、POP3、SMTP、EWS、SNTP/Time/Daytime、Mail、MSG、TLS、SSH Shell、Telnet、终端仿真、安全、Syslog、WebSocket、 ZIP 压缩&#xff0c;SFTP/SSH 服务…

Java之final相关内容详解【面试题】

1、final关键字除了修饰类之外&#xff0c;还有哪些用法呢&#xff1f; &#xff08;1&#xff09;final修饰的变量&#xff0c;一旦赋值&#xff0c;不可重新赋值&#xff1b; &#xff08;2&#xff09; 如果引用为引用数据类型&#xff0c;比如对象、数组&#xff0c;则该对…

生成模型(二):VAE

自动编码器的发明是为了重建高维数据&#xff08;这可能不是变异自动编码器的真实情况&#xff09;。一个很好的副产品是降维&#xff1a;瓶颈层捕获了一个压缩的潜在编码。这样的低维表示可以作为各种应用中的嵌入向量&#xff08;如搜索&#xff09;&#xff0c;帮助数据压缩…

计算机研究生就业方向之大厂销售(营销)

我一直跟学生们说你考计算机的研究生之前一定要想好你想干什么&#xff0c;如果你只是转码&#xff0c;那么你不一定要考研&#xff0c;至少以下几个职位研究生是没有啥优势的&#xff1a; 1&#xff0c;软件测试工程师&#xff08;培训一下就行&#xff09; 2&#xff0c;前…

世界杯---人生就是一届又一届世界杯

注意&#xff1a;下面有视频看到文章会有声音&#xff0c;如果打扰到您非常抱歉&#xff0c;视频在文章最下面&#xff0c;还望观众老爷们不要在意&#xff0c;蟹蟹理解~ &#x1f680;write in front&#x1f680; &#x1f4dd;个人主页&#xff1a;认真写博客的夏目浅石. &a…

OTP语音芯片是用什么软件来编程,以及如何烧录的?

目录 OTP语音芯片的开发环境&#xff1a; 也就是一般的客户想自己开发&#xff0c;基本不可能了&#xff0c;因为前期的培训成本、工具成本都是比较高的 OTP语音芯片的烧录方法&#xff1a; 第1步&#xff0c;是开发编译好程序之后&#xff0c;生成了对应的bin文件&#xf…

15、Redis集群

文章目录15、Redis集群15.1 问题15.2 什么是集群15.3 删除持久化数据15.4 制作6个实例15.4.1 配置基本信息15.4.2. redis cluster配置修改15.4.3. 修改好redis6379.conf文件&#xff0c;拷贝多个redis.conf文件15.4.4 使用查找替换修改另外5个文件15.4.5 启动6个redis服务15.5 …

MySQL innodb引擎架构分析- Double Write Buffer

文章目录系列文章目录前言一、Double Write Buffer是什么&#xff1f;二、Double Write Buffer步骤步骤对性能的影响总结系列文章目录 1. MySQL innodb引擎架构分析-Buffer Pool 2. MySQL innodb引擎架构分析-Redo log 3. MySQL innodb引擎架构分析- Double Write Buffer 前言…

java基于ssm+vue+elementUI实验报告管理系统

BS的实验报告管理系统是针对目前大学推广与交流的实际需求&#xff0c;从实际工作出发&#xff0c;对过去的实验报告管理系统存在的问题进行分析&#xff0c;完善用户的使用体会。采用计算机系统来管理信息&#xff0c;取代人工管理模式&#xff0c;查询便利&#xff0c;信息准…

鸡血篇:网络工程师为什么要学Python,如何学Python

两个多月之前写了一篇“送给打算考IE&#xff0c;正在学网络&#xff0c;纠结要不要转行学网络的你们”的文章&#xff0c;意外地收到了不少小伙伴的私信&#xff0c;大多咨询如何学习网络工程&#xff0c;以及什么方向的IE更有前景之类的问题。其实IE的话题我不想再多说&#…

Redis缓存一致性问题

目录 1、背景 2、缓存读写模式 2.1、Cache-Aside Pattern(旁路缓存模式) 2.2、Read-Through/Write-Through&#xff08;读写穿透模式&#xff09; 2.3、Write Behind Pattern(异步缓存写入) 3、数据不一致的几种场景 3.1、先删缓存&#xff0c;再更新数据库 3.2、先更新…

豆瓣评分9.1!据说入门Python的人都读过

前言 你是否正在寻找一本适合初学者入门Python的书籍呢&#xff1f; 如果是&#xff0c;那你来对地方了&#xff0c;以我个人经验&#xff0c;开始学习一门新的编程语言是相当困难和耗时的&#xff0c;这也是我今天要和大家分享这本书的原因&#xff0c;不卖关子了&#xff0…

算法竞赛入门【码蹄集进阶塔335题】(MT2051-2075)

算法竞赛入门【码蹄集进阶塔335题】(MT2051-2075&#xff09; 文章目录算法竞赛入门【码蹄集进阶塔335题】(MT2051-2075&#xff09;前言为什么突然想学算法了&#xff1f;为什么选择码蹄集作为刷题软件&#xff1f;目录1. MT2051 矩阵01变2. MT2052 矩形3. MT2053 切蛋糕4. MT…

面试怕问到缓存穿透?看这篇就够了

面试怕问到缓存穿透&#xff1f;看这篇就够了&#xff01; 缓存穿透 缓存穿透指的是请求的数据在数据库和缓存中都不存在&#xff0c;这样缓存永远都不会生效&#xff0c;这些请求就会直接打到数据库中。 就比方说&#xff0c;你去查询一个商户&#xff0c;带着id为负数的参数…