可视化数据科学平台在信贷领域应用系列四:决策树策略挖掘

news2025/1/17 15:35:27

信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷款违约风险可控的前提下最大程度地提升银行的收益规模,确保银行的贷款业务能够稳健运营。

在信贷风控策略挖掘工作中,风控策略专家通常基于业务需求和业务经验,设计组合特征规则,该过程非常依赖策略专家对业务的理解和经验,过程往往非常耗时。逐渐地,基于决策树算法的策略挖掘方法体现出了其优越性。在面对高维度特征集时,基于决策树的自动化规则集策略挖掘的性能明显优于人工分析和设计,如此一来,策略专家只需要对自动挖掘得到的规则集进行检视和优化即可。

那么,如何实现自动化的决策树生成?拥有10余年经验的国内某互联网银行的风控模型主管给出答案。他在对数据的清洗、探索和特征组合加工后,这位模型专家又继续信贷风控策略的挖掘,这一期,他和小编雀跃的分享到“我只通过两个参数设置的步骤就完成了自动化的决策树生成,这对日常工作的提效是神助力”!让我们来看看他是如何实现的吧。

图片

01什么是“信贷风控策略挖掘”?

信贷风控策略挖掘是指通过对申请客户的信贷数据和行为数据进行深入分析和挖掘,以发现有效的信贷风险管理策略的过程。这些策略旨在识别和降低贷款违约和信用风险,确保银行的贷款业务能够健康稳健运营,并取得良好的收益率。

具体来讲,信贷风控策略挖掘通常包括以下主要环节:

1)数据收集和准备:首先,需要收集和整理与客户信贷业务相关的各类数据,包括个人基本信息、人行征信报告、消费支付信息、信贷历史行为等,这些数据将被用于后续的策略分析和挖掘。在完成数据收集之后,按照我们前序文章《数据清洗》所介绍的方法,对数据集进行预处理。

2)数据分析和特征工程:在完成数据清洗之后,需要对数据进行分析和处理。如前序文章《数据探索》和《特征组合》所介绍的内容,对数据集进行探索性数据分析、特征组合挖掘等步骤,提取有用的特征并准备用于策略挖掘的数据集。

3)规则集挖掘分析:需要选择适当的挖掘分析方法,得到的规则集需要在历史数据上进行验证和测试。

4)规则集部署与线上监测:挖掘得到的规则集在历史数据上取得了良好的表现,就需要将其部署至生产环境,进行无决策运行,即在实际业务中运行并观测效果。

5)风控策略制定:经过一定时间的线上运行,规则集的效果得到实际验证,并且积累了足够量的生产测试数据,策略人员根据业务要求,综合考量对业务规模和贷后风险水平的把控,将规则集制定为有效的风控策略。

02运用决策树算法进行策略挖掘

决策树算法在诸多分类算法中,作为决策模型其整体分类性能并不出色,但是决策树的叶子节点的分类准确率却可以很高。我们应当利用好决策树的这个特点,提取决策树的叶子节点的分支规则,筛选识别准确率较高的叶子节点并结合节点判断逻辑的业务含义进行选定并使用。

深入分析,决策树算法为什么适合用于风控策略挖掘呢,其主要原因包括:

1)可解释性强:决策树算法生成的组合规则易于理解和解释,可以清晰地展示出影响决策的因素和决策逻辑,有助于业务人员和决策者理解规则的逻辑和预期。

2)灵活处理混合类型数据:决策树算法能够处理包含类别型特征和数值型特征的混合类型数据,不需要对数据进行特殊的编码或转换。

3)能够处理高维度特征数据:决策树算法具有较高的计算效率,能够处理大规模特征数据集,在实际应用中具有较好的可扩展性。

4)对异常值和缺失值具有鲁棒性:决策树算法对于异常值和缺失值具有较好的鲁棒性,不会对异常值和缺失值过于敏感,在一定程度上可处理异常缺失数据。

5)可量化评估特征重要性:通过决策树算法,可以计算各个特征在决策过程中的重要性,帮助策略人员了解哪些特征对于决策树预测的量化贡献最大,从而更好地理解业务特征数据。

6)易于调优和优化:决策树模型具有较多的参数可以调整,如树的深度、分裂节点的最小样本数和比例、节点分裂策略等,通过调整这些参数可以优化决策树的性能,使其更好地适应不同的业务场景和数据特点。

综上所述:决策树模型在风控策略挖掘中具有较好的可解释性、适用性和效率,因此被广泛应用于风控领域。

RapidMiner 的决策树策略挖掘功能非常好的提升用户的效率,其中,Interactive Analysis 模块的“交互式分析”功能尤为适合所有的用户利用这个工具提效。

03RapidMiner 中的 Interactive Analysis 模块

Interactive Analysis 模块的“交互式分析”简明的步骤式引导大大提升了使用者的挖掘效率。

1)加载数据集 Load Data

如图1,为进入Interactive Analysis模块后的交互界面,选择数据集后,界面右侧会展示数据集概况,包括样本数、变量数、目标变量信息、字段名等。

图片

图1 Interactive Analysis 模块数据加载

2)模型设置 Model Settings

图片

图2 Interactive Analysis 模块模型参数设置

完成数据集加载之后,就来到决策树模型的参数设置步骤,Interactive Analysis 模块模型参数设置界面如图2所示。RapidMiner Interactive Analysis 支持多种分裂搜索方法,支持分裂增益度量方式设置。

RapidMiner Interactive Analysis 支持灵活的变量选择,并且可以直观展示候选变量在相关性 Correlation、ID 属性程度 ID-ness、集中度 Stability、缺失率 Missing、文本属性 Text-ness 共5个维度的程度,并综合给予可用性评价,十分方便策略人员进行特征筛选。

3)决策树生长参数设置

图片

图3 Interactive Analysis 模块决策树生长参数设置

完成决策树模型参数设置,就来到决策树生长参数设置步骤,Interactive Analysis 模块模型参数设置界面如图3所示。我们将叶子节点的最小样本比例设置为1%,非叶子节点的最小样本比例设置为3%,一旦不满足以上规则,决策树则停止生长。

在执行完上述步骤后,即可开启自动化组合规则挖掘。

04Interactive Analysis 模块实操决策树策略挖掘

下面我们使用 RapidMiner Interactive Analysis 模块在UCI 台湾信用卡数据集上来实操一下决策树策略挖掘工作。按照 RapidMiner 的操作指引,一次完成数据加载、模型参数设置、决策树生长参数设置,软件即可自动开启挖掘分析。

图片

图4 树深度为2时的挖掘结果

我们首先讲决策树的深度设定为2,即仅通过一个变量对数据集进行划分,得到结果如图4。可见模型选择了变量 PAY_0(2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款),且“PAY_0 = 2”和“PAY_0 >= 3”两个分支节点的目标变量占比要远远高于整体水平。

下一步我们再将决策树的深度设定为3,即通过最多两个变量组合的方式对数据集进行划分。如图5,RM挖掘得到了一个目标变量占比更高的分组组合规则1 :

“PAY_0=2 且 PAY_6 ∈ [2:8]”(业务含义为,客户在6个月前发生延迟2个月以上还款 且 上个月发生延迟2个月还款)

如图6,RM 亦挖掘得到了一个目标变量占比远低于全局的分组组合规则2:

 “PAY_0 = -2 且 PAY_AMT1 >= 5000”(业务含义为,上个月客户未消费且还账单金额和存入信用卡金额大于等于5000元)

图片

图5 树深度为3时的挖掘结果1

图片

图6 树深度为3时的挖掘结果2

在策略应用层面,上述两个组合规则均具有较好的业务应用价值,且业务解释性较。组合规则1可设定为拒绝策略,组合规则2可作为优质客户筛选规则,为其设置利率优惠或额度提升策略

05RapidMiner 在决策树策略挖掘中的优势与特点

使用体验下来,我总结了 RapidMiner 在决策树策略挖掘中三个特点:

第一,智能化、自动化。RapidMiner 的 Interactive Analysis 模块高度自动化,仅通过两个参数设置的步骤即可完成自动化的决策树生成。

第二,提高效率。在面对高维数据时,交互式决策树分析的性能明显优于人工策略设计挖掘,策略专家可将精力放在对规则集进行审查优化和筛选上。

第三,交互体验好,应用技术门槛低。RapidMiner 的Interactive Analysis 模块通过简易的操作步骤大大降低了策略挖掘的技术门槛,没有算法技术背景的产品专家或业务专家在 RapidMiner 的赋能下,亦可快速完成决策树策略分析挖掘工作。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1790659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

240602-通过命令行实现HuggingFace文件上传

A. 登录显示 A.1 MacOS A.2 Windows B. 操作步骤 B.1 操作细节 要通过命令行将文件上传到 Hugging Face,可以使用 huggingface-cli 工具。以下是详细步骤: 安装 huggingface_hub 包: 首先,确保已经安装了 huggingface_hub 包。可…

mysql表级锁(表锁/元数据锁/意向锁)

文章目录 表级锁的分类1、表锁(分类)1.表共享读锁(read lock)2.表独占写锁(write lock)3.语法: 2、元数据锁(meta data lock )3、意向锁1.意向共享锁(IS):由语…

Java基础29(编码算法 哈希算法 MD5 SHA—1 HMac 算法 堆成加密算法)

目录 一、编码算法 1. 常见编码 2. URL编码 3. Base64编码 4. 小结 二、哈希算法 1. 哈希碰撞 2. 常用哈希算法 MD5算法 SHA-1算法 自定义HashTools工具类 3. 哈希算法的用途 校验下载文件 存储用户密码 4. 小结 三、Hmac算法 小结: 四、对称加密…

WEB攻防-Python-PYC 反编译CTF 与 CMS-SSTI 模版注入

反编译pyc字节码文件 pyc文件是py文件编译后生成的字节码文件(byte code),pyc文件经过python解释器最终会生成机器码运行。因此pyc文件是可以跨平台部署的,类似Java的.class文件,一般py文件改变后,都会重新生成pyc文件。 真题附件…

6月5日 C++day3

#include <iostream>using namespace std;class Per { private:string name;int age;int *high;double *weight; public:Per(){cout << "Per的无参构造" << endl;}Per(string name,int age,int high,double weight):\name(name),age(age),high(new…

React项目目录结构与组件基础结构

在React中开发项目并扩展组件时&#xff0c;一个清晰合理的目录结构是至关重要的。它不仅可以帮助你更好地组织代码&#xff0c;还能提高项目的可维护性和扩展性。下面是一个基本的React项目目录结构大纲&#xff0c;你可以根据自己的项目需求进行调整&#xff1a; my-app/ ├…

MySQL的联合索引及案例分析

1. 联合索引 关于联合索引的详解参考博客【Mysql-----联合索引和最左匹配】&#xff0c;包含讲解 最左匹配 联合索引失效的情况 不遵循最左匹配原则范围查询右边失效原理like索引失效原理 比较关注的点在于&#xff1a; 对A、B、C三个字段创建一个联合索引&#xff08;A, …

go语言linux安装

下载&#xff1a;https://go.dev/dl/ 命令行使用 wget https://dl.google.com/go/go1.19.3.linux-amd64.tar.gz解压下载的压缩包&#xff0c;linux建议放在/opt目录下 我放在/home/ihan/go_sdk下 sudo tar -C /home/ihan/go_sdk -xzf go1.19.3.linux-amd64.tar.gz 这里的参数…

21.Redis之分布式锁

1.什么是分布式锁 在⼀个分布式的系统中, 也会涉及到多个节点访问同⼀个公共资源的情况. 此时就需要通过 锁 来做互斥控制, 避免出现类似于 "线程安全" 的问题. ⽽ java 的 synchronized 或者 C 的 std::mutex, 这样的锁都是只能在当前进程中⽣效, 在分布式的这种多…

Nginx配置详细解释:(3)http模块及server模块,location模块

目录 环境概述&#xff1a; http模块中的全局模块 1. root配置主要是对主web页面的路径访问。 2.server虚拟主机 2.1基于IP&#xff1a; 2.2基于域名&#xff1a; 3.alias别名 4.location匹配 5.access模块&#xff1a; 6.验证模块 7.自定义错误页面 8.日志存放位置…

信不信,马上教会你Purple Pi OH开发板之ADB常用命令

开源鸿蒙硬件方案领跑者 触觉智能 本文适用于在Purple Pi OH开发板进行分区镜像烧录。触觉智能的Purple Pi OH鸿蒙开源主板&#xff0c;是华为Laval官方社区主荐的一款鸿蒙开发主板。 该主板主要针对学生党&#xff0c;极客&#xff0c;工程师&#xff0c;极大降低了开源鸿蒙开…

专属编程笔记

Utils目录作用 在软件开发中&#xff0c;Utils&#xff08;或 Utilities&#xff09;目录通常用于存放一些通用的、不特定于任何模块的工具类或辅助函数。这些工具类或函数为整个应用程序或多个模块提供便利的功能支持&#xff0c;使得代码更加模块化、易于维护和重用。Utils目…

深度学习 --- stanford cs231 编程作业(assignment1,Q2: SVM分类器)

stanford cs231 编程作业之SVM分类器 写在最前面&#xff1a; 深度学习&#xff0c;或者是广义上的任何学习&#xff0c;都是“行千里路”胜过“读万卷书”的学识。这两天光是学了斯坦福cs231n的一些基础理论&#xff0c;越往后学越觉得没什么。但听的云里雾里的地方也越来越多…

pycharm专业版安装保姆级教程

一、官网下载 PyCharm下载地址&#xff1a;http://www.jetbrains.com/pycharm/download/#sectionwindows 选择专业版点击下载 二、进入安装向导 下载完成后&#xff0c;点击.exe文件 点击是 点击下一步 可修改安装目录为自己想安装的位置 或者不修改也可 点击下一步 选择所…

[数据概念]数据要素和智能算力市场关系解析

昨天的AI圈里最炸裂的莫过于OpenAI GPT4o的发布了。 根据官网的介绍&#xff0c;GPT-4o是面向未来人机交互范式的全新大模型&#xff0c;具有文本、语音、图像三种模态的理解力。 而且加量不加价 国内报道也是铺天盖地的“炸裂”。 反倒是外媒&#xff0c;报道倒是没有那么夸张…

亮数据——全球网络数据一站式平台

在我们日常的项目开发和研究中&#xff0c;数据获取总是一个让人既爱又恨的话题。找到一个既高效又安全的工具&#xff0c;简直就像是在茫茫沙漠中找到绿洲。近期&#xff0c;我测评了&#xff0c;数十家数据获取工具&#xff0c;最后锁定了&#xff0c;亮数据&#xff0c;本篇…

网络安全等级保护相关标准及发展

目录 等保标准 等保定级 发展 等保标准 2016年11月发布的《网络安全法》第二十一条提出“国家实行网络安全等级保护制度”。 等级保护标准体系&#xff1a; &#xff08;1&#xff09;安全等级类标准 主要包括GB/T 22240-2008《信息安全技术 信息系统安全保护等级保护定…

从Series到DataFrame:Python数据操作的转换技巧

在数据分析和处理的过程中&#xff0c;我们经常需要在Pandas库中对Series和DataFrame进行操作。本文将介绍如何将Series转换为DataFrame&#xff0c;以及如何提取DataFrame中的某一列。首先&#xff0c;我们将通过使用to_frame()函数将Series转换为DataFrame。然后&#xff0c;…

Linux系统编程(七)网络编程TCP、UDP

本文目录 一、基础知识点1. IP地址2. 端口3. 域名4. 网络协议类型5. IP协议类型6. 字节序7. socket套接字 二、TCP 常用API1. socket套接字描述符2. bind套接字绑定3. listen设置最大排队数4. accept接收客户端请求5. connect连接服务端6. read读取数据7. write发送数据 三、UD…

网页音频提取在线工具有哪些 网页音频提取在线工具下载

别再到处去借会员账号啦。教你一招&#xff0c;无视版权和地区限制&#xff0c;直接下载网页中的音频文件。没有复杂的操作步骤&#xff0c;也不用学习任何代码。只要是网页中播放的音频文件&#xff0c;都可以把它下载到本地保存。 一、网页音频提取在线工具有哪些 市面上的…