基于风控特征相关度,挖掘贷中等场景中的存量客户价值|来看看相关实操

news2024/11/25 20:30:35

在数据建模流程中,都会涉及一个样本特征的相关性的分析,这个是建模流程中重要一环。通过量化特征字段之间的相关程度,可以将其作为一个重要信息维度,便于我们对模型训练的特征变量池进行有效筛选,不仅有简化模型且保证模型区分度与稳定性的作用,而且还可以明显提升数据建模任务的综合效率。今天我们会基于贷中存量客群的场景,讲讲相关性的相关实操内容。
根据特征分布类型与取值情况的差异,可以采用不同的处理方法来分析不同场景下的特征相关性能,例如pearson系数、spearman系数、卡方检验、方差分析等,具体情况如图1所示。由图可知,针对不同特征的取值类型,采用相应的处理方法是数据本身的信息价值,也是实际业务的场景需要,这样才能有效挖掘出样本特征隐藏的规律。
在这里插入图片描述
图1 不同特征类型的相关性评估

在以上列出的特征相关性分析方法中,pearson相关系数是最常用的一种量化方式。针对数值型变量,无论是连续型或离散型,还是float型或int型,都可以快速分析得到特征之间的pearson系数,从而根据绝对值越大相关性越强的规律,来研究特征变量的相关性分布。虽然pearson系数可以适用于所有数值型变量,但严格来讲,此系数主要是围绕连续型特征来展开分析的,而且是衡量特征线性关系的,并不能完全说明特征之间的真实相关程度。
举个例子,某两个特征变量的pearson系数为0,不能直接证明二者数据分布不相关,仅能体现出数据分布的线性不相关,可能非线性相关程度较强。若此时只根据pearson系数为0的结果将特征删除,在实际业务中显然是不合理的,对于有监督的机器学习模型来说,并未要求特征变量与目标变量必须是线性相关性要强,而是彼此相关性要强。因此,如何避免pearson相关系数在特征筛选阶段存在的缺陷,是我们在日常建模过程中需要特别注意的环节。结合以上情况,本文将给大家介绍另外一种特征相关性分析方法,与pearson相关系数来协同配合使用,那就是特征之间的距离distance相关系数。
1、Distance相关系数原理
距离distance相关系数可以衡量特征数据之间的非线性相关程度,可以解决pearson系数仅能量化数据线性相关的弱点。简单来讲,当两个特征变量的pearson相关系数为0时,不能说明二者的数据分布独立,但当distance相关系数为0时,必然证明二者分布彼此独立。特征distance相关系数的结果取值越大,说明特征变量之间的非线性相关程度越强。
特征的距离distance相关系数的计算,需要依赖于特征变量的距离协方差与距离方差,实现过程主要包括以下几个步骤:
(1)算出特征数组每行数据之间的范数距离;
(2)对所有的成对距离进行中心化处理;
(3)算出样本距离的平方协方差(标量)的算数平均样本距离方差;
(4)将两个随机变量的距离协方差除以它们的距离标准差的乘积,得到它们的距离相关性系数。

2、距离相关系数的实现
特征之间的距离distance相关系数,可以根据知识星球代码详情的自定义函数来实现,只需在函数distance_corr(X,Y)中指定输入两个特征数据X与Y,便可以直接输出二者的距离相关系数dcorr,从而按照取值越大则非线性相关性越强的规律,来评价特征变量之间的相关程度。
假如现有特征a([3,1,8,0,6])与特征b([1,0,1,1,0]),调用以上distance_corr()函数可以得到特征a与b的距离相关系数0.1,同时我们采用corr()函数来输出二者的pearson系数,结果取值为0.2,具体实现过程如图3所示,可见这两个特征数据分布的非线性相关性与线性相关性存在着较明显的差异,仅通过单个系数来评价特征之间的相关程度是片面的。因此,我们在场景实践中,有必要对两种系数代表的相关性含义进行综合分析。
在这里插入图片描述
图3 特征距离相关系数举例

3、客户价值模型场景实践
为了便于大家更深入理解特征距离distance相关系数在实际场景中的应用,接下来我们围绕具体的场景案例数据,来介绍特征distance距离相关系数对特征筛选的参考意义,以及对模型拟合效果的影响分析。
3.1 实例样本数据
本文选取的样本数据包含5000条样本与6个字段,部分数据样例如图4所示。其中,id为样本主键,air_travel(航旅出行次数)、credit_use(信用卡使用次数)、stable_index(稳定性系数)、risk_score(风险评分)为特征变量,online_level(网购价值等级)为目标变量,取值1/0分别代表是否价值用户。样本数据的简单描述性统计分析EDA结果如图5所示,可见各特征无缺失值、异常值等情况。
在这里插入图片描述
图4 样本数据样例

在这里插入图片描述
图5 样本EDA分布

本例建模目的是通过特征变量这4个信息维度,来对目标变量进行训练拟合。在模型训练之前,为了有效提升模型拟合效果,根据建模样本的数据分布情况,有必要采用特征工程的相关方法来对特征字段进行筛选。由于本文重点介绍特征相关性的内容,因此我们通过分析特征变量与目标变量的相关性,来衡量特征变量对模型目标的贡献价值。

3.2 根据相关系数筛选特征
根据实例样本数据,我们首先采用corr_p=data.drop(columns=[‘id’]).corr()来输出特征之间的pearson相关系数。在Python环境中,corr()默认method=‘pearson’,若需要生成spearman系数,则需要指定method=‘spearman’。根据以上简单逻辑,得到特征pearson相关系数的分布结果如图6所示。
在这里插入图片描述
图6 特征pearson相关系数

通过以上结果可以看出,针对模型目标变量online_level,各特征变量与之线性相关程度由高到低的顺序依次为air_travel、credit_use、stable_index、risk_score,系数绝对值越大,说明彼此线性相关性越强,正值代表正相关,负值代表负相关。通过pearson相关系数的维度分析,可以判断特征risk_score对模型目标的贡献度最差,若采用特征筛选方式来简化模型,可优先考虑删除特征risk_score。
我们再来根据图2的特征距离相关系数的实现过程,来输出各特征变量与目标变量的特征distance距离相关系数。以特征air_travel为例,与目标online_level的距离系数实现过程为distance_corr(data[‘online_level’],data[‘air_travel’]),其他特征与之同理,最后汇总结果如图7所示。
在这里插入图片描述
图7 特征distance相关系数

由以上结果可知,针对模型目标变量online_level,各特征变量与之非线性相关程度由高到低的顺序依次为air_travel、risk_score、credit_use、stable_index,系数取值越大,说明彼此非线性相关性越强。通过distance相关系数的维度分析,可以判断特征stable_index对模型目标的贡献度最差,若采用特征筛选方式来简化模型,可优先考虑删除特征stable_index,这个分析结果显然与前边pearson系数是不同的。
在pearson系数分布中,特征risk_score与目标变量online_level的相关程度是最弱的(-0.0368437),且与最强变量air_travel表现(0.172161)的量化差距是很大的。但是,在distance系数分布中,特征risk_score与目标变量online_level的相关程度不仅非最弱(0.1629),且与最强变量air_travel表现(0.1966)的量化结果是很接近的。从这个分析结果可知,在衡量特征变量对目标变量的相关程度时,不能仅依据其中某一个相关系数维度来评价,而是要综合性分析,毕竟线性相关与非线性相关所体现的数据规律是完全不同的。
以上两种不同维度的相关性分析方法,对特征筛选的策略实施有不同的结果,为了进一步证明二者对模型拟合效果有较大影响,我们在特征pearson线性相关系数和distance非线性相关系数情况下,分别训练拟合模型,并通过模型的常见指标来进行评价。这里采用XGBoost分类算法来构建模型,第1种情况为根据pearson系数结果删除特征risk_score,第2种情况为根据distance系数结果删除特征stable_index,对应的模型训练与模型评估过程详见知识星球代码详情。此外,为了实现模型性能的横向对比,模型训练参数均保持统一。
通过变量pearson系数和distance系数两种特征筛选情况下的模型拟合训练,选取二分类模型常用的模型指标Accuray、KS、AUC来评价模型综合性能,具体指标结果如图10所示。
在这里插入图片描述
图10 模型效果指标对比

由以上模型结果可知,通过pearson相关系数删除特征risk_score,以及distance相关系数删除特征stable_index的模型评估指标,存在较明显的差异,尤其是分类模型典型的区分度指标KS,二者表现(0.3595、0.3995)有一定的差距。因此,通过以上分析,我们可以清晰的了解到,根据特征相关性来筛选特征变量时,由于pearson系数与distance系数量化的信息维度不同,对应的模型效果也是有很大区别的。
在实际建模场景中,我们需要明确,若希望较准确的评估特征变量之间的相关性,并以此来进行特征筛选时,更为全面的思路是同时兼顾pearson线性相关系数与distance非线性相关系数的分布情况,这样分析得到的特征相关程度认定,以及特征变量筛选结果,对特征数据分析或样本数据建模的效果更为合理。例如本例的特征筛选环节,特征变量stable_index与目标变量online_level的相关性评估,在pearson线性相关与distance非线性相关两方面均表现较差,应优先考虑将其删除,而且其模型效果也反映了这个策略的准确性。
综合以上内容,我们介绍了特征距离distance相关系数的理论价值与实践意义,并围绕实例样本数据,完成了特征distance非线性相关系数与pearson线性相关系数的完美结合应用。
为了便于大家对以上内容的进一步理解与熟悉,本文额外附带了与此同步的Python代码与样本数据,详情请移至知识星球参考相关内容:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

~原创文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/46898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NLTK下载使用问题

一开始想要执行如下语句,结果运行不了 from textblob import TextBlob text Today is a beautiful day. Tomorrow looks like bad weather. blob TextBlob(text) print(blob) print(-*10) print(blob.sentences)原因是没有下载NLTK的语料库,调用如下语…

【创建VUE3新项目】从零开始如何创建一个干净的vue3项目【基于前端详细介绍】

【写在前面】基于安装完node和npm基础上来实现的,没安装的可以看我之前的文章,如何验证呢?npm -v / node -v 两个命令行解决! 一、创建文件(脚手架安装) 此处值得注意的是不能包括大写字母,不…

图库 | 图计算的适用场景有哪些?

图计算适用的场景非常广泛。在其肇始的早期阶段,图计算仅限于学术界以及工业界资深的研究机构内部,随着计算机体系架构的发展,图计算也在更广泛的行业和场景中得到应用。按照时间维度我们大体可以把图计算的发展及适用范围分为如下几个阶段&a…

微服务框架 SpringCloud微服务架构 5 Nacos 5.1 认识和安装Nacos

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 SpringCloud微服务架构 文章目录微服务框架SpringCloud微服务架构5 Nacos5.1 认识和安装Nacos5.1.1 认识Nacos5.1.2 安装Nacos5 Nacos 5.1 …

ARM架构与编程 · 基于IMX6ULL

一、嵌入式系统硬件介绍 cpu RAM(内存) FALSH 集成(flash存储设备) MCU/单片机 AP/ MPU 进化之后可以外接内存和存储设备,跑复杂的操作系统,比如手机 cpu一上电就会执行程序,程序存放在片内的ROM中&…

Apollo 应用与源码分析:Monitor监控-软件监控-时间延迟监控

目录 代码 分析 RunOnce 函数分析 UpdateState函数分析 发送时间延迟报告函数分析 备注 代码 class LatencyMonitor : public RecurrentRunner {public:LatencyMonitor();void RunOnce(const double current_time) override;bool GetFrequency(const std::string& ch…

原型设计模式

一、原型模式 1、定义 原型模式(Prototype Pattern)指原型实例指定创建对象的种类,并且通过复制这些原型创建新的对象,属于创建型设计模式。 原型模式的核心在于复制原型对象。 2、结构 (1)模式的结构 …

doris 动态分区

添加分区 ALTER TABLE v2x_olap_database.government_car ADD PARTITION p20221203 VALUES LESS THAN ("2022-12-04");动态分区表不能添加分区&#xff0c;需要转为手动分区表 查看分区 show paritions from <表名>删除分区 alter table <表名> dro…

[附源码]Python计算机毕业设计SSM隆庆祥企业服装销售管理系统(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

短信的信令过程

目录 1 短消息的信息流程&#xff1a; 1.1消息一次成功发送时的情况MO上行-MT下行 方式&#xff1a;1&#xff0e; MO&#xff08;主叫移动用户发给sp短消息中心&#xff09;编辑好短消息&#xff0c;键入发送号码&#xff08;被叫移动用户号码&#xff09;&#xff0c;按发送…

Java基于springboot+vue的摄影作品展示交流系统 计算机毕业设计

随着时代的发展&#xff0c;人们的精神世界也在不断的丰富&#xff0c;尤其是在当下电子设备发展迅速的背景下&#xff0c;人们通过数码相机或者手机随后就可以拍下每一个美丽的瞬间&#xff0c;但是人们更希望将这些摄影作品传到网上和更多的人进行分享&#xff0c;同时也希望…

决策树算法、随机森林算法

一、决策树 1、什么是决策树&#xff1f;如何进行高效的决策&#xff1f; 最早的决策树就是利用程序设计中的if-else结构分割数据的一种分类学习法。决策树的思想就是&#xff1a;如何高效的进行决策。而我们决策是有顺序的&#xff0c;即&#xff1a;我们在看不同的特征的时…

SSE AVX 发展简单介绍

SIMD全称是"Single Instruction, Multiple Data". SSE1是Pentium III引入的&#xff0c;它操作于16 bytes寄存器。在C和C中&#xff0c;这些寄存器以__m128的形式作为数据类型(128 bits16 bytes)。每个寄存器包含4个单精度浮点数float&#xff0c;指令集一共有8个这…

virtualbox下ubuntu虚拟机配置网络

一、目标&#xff1a; 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat&#xff0c;网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

OS_内存管理@非连续方式@段式和段页式

文章目录OS_内存管理非连续方式段式和段页式内存管理方式的发展基本分段存储逻辑结构图逻辑地址结构划分段表地址变换机构段表寄存器内容结构段和段表项的记号地址变换机构变换过程段的共享与保护段页式存储逻辑地址结构实现思路:段表和页表的变体&#x1f388;逻辑结构图sp-段…

HLS + ffmpeg 实现动态码流视频服务

一、简介 如下图&#xff0c;包含三部分&#xff0c;右边一列为边缘节点&#xff1b;中间一列代表数据中心&#xff1b;左边一列是项目为客户提供的一系列web管理工具&#xff1a; 具体来说在我们项目中有一堆边缘节点&#xff0c;每个节点上部署一台强大的GPU服务器及N个网络…

猴子也能学会的jQuery第十二期——jQuery遍历(下)

&#x1f4da;系列文章—目录&#x1f525; 猴子也能学会的jQuery第一期——什么是jQuery 猴子也能学会的jQuery第二期——引用jQuery 猴子也能学会的jQuery第三期——使用jQuery 猴子也能学会的jQuery第四期——jQuery选择器大全 猴子也能学会的jQuery第五期——jQuery样式操作…

0201导数的概念-导数与微分-高等数学

文章目录1 导数的定义2 常见函数的导数(导函数)3 单侧导数4 导数的几何意义5 可导和连续的关系6 后记1 导数的定义 设函数yf(x)yf(x)yf(x)在点x0x_0x0​的某个邻域内有定义&#xff0c;当自变量x在x0取得增量△xx在x_0取得增量\triangle xx在x0​取得增量△x(点x△xx\triangle …

品优购项目案例制作需要注意的内容笔记

个人在做的时候遇到的&#xff0c;自己觉得需要注意的内容 模块化 1.有些样式和结构在很多页面会出现&#xff0c;比如页面的头部和底部&#xff0c;大部分页面都有。此时可以把这些结构和样式单独作为一个模块&#xff0c;然后重复使用 2.这里最典型的应用就是common.css公…

虚拟内存系统【多级页表】

多级页表&#x1f3dd;️1. 考虑使用更大的页&#x1f3d6;️2. 使用段页式管理&#x1f4d6;2.1 为什么采用段页式管理&#xff1f;&#x1f4d6;2.2 段页式管理的缺点&#x1f3de;️3. 多级页表&#x1f4d6;3.1 多级页表的优点&#x1f4d6;3.2 多级页表的缺点&#x1f4d6…