银行信用卡风险大数据分析与挖掘2024

news2024/9/22 15:25:24

银行信用卡风险大数据分析与挖掘

使用excel数据挖掘功能完成

一、信用卡客户信用等级影响因素分析与挖掘

基于客户信用记录表

1. 数据预处理

浏览数据
  • 客户等级占比,其中优质客户占比较少,风险客户很多,分析影响客户信用等级的原因

    在这里插入图片描述

  • 年龄分布,为了方便挖掘,后续会重新标记为30岁以下,30-50,50岁以上

    在这里插入图片描述

  • 婚姻状态,有一个离散值

    在这里插入图片描述

  • 户籍分布,分为特别发达、一般和偏远

    在这里插入图片描述

  • 教育程度,后续会重新标记为是否上过大学

    在这里插入图片描述

  • 住房类型,其他影响挖掘,后续会当作离散值删除

    在这里插入图片描述

  • 职业类别

    在这里插入图片描述

  • 工作年限,将20年以上的标记为一类

在这里插入图片描述

  • 个人收入 收入差距太大了

在这里插入图片描述

可以看到部分人的收入过高,部分人过低

在这里插入图片描述

在这里插入图片描述

  • 保险缴纳

在这里插入图片描述

  • 车辆情况

    在这里插入图片描述

  • 信用评分

    在这里插入图片描述

  • 额度

在这里插入图片描述

  • 审批结果

在这里插入图片描述

离群值清除
  • 婚姻状态,选择将一个丧偶人士的数据清除

    在这里插入图片描述

在这里插入图片描述

  • 住房类型

    在这里插入图片描述

在这里插入图片描述

重新标记
  • 年龄 重新标记为低于30、30-50、大于50

    在这里插入图片描述在这里插入图片描述

  • 户籍

    在这里插入图片描述

  • 教育程度

    在这里插入图片描述

  • 工作年限

    在这里插入图片描述

采用突出显示异常值处理

异常值报表

在这里插入图片描述

异常值数据,共36条

在这里插入图片描述

选择删除异常值

数据处理结果

在这里插入图片描述

2. 数据挖掘

采用分类中决策树构建模型,判断信用卡客户信用等级影响因素,这里没有选择收入,是因为收入是连续值,所以我们判断的是除收入外最重要的影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

生成结果

在这里插入图片描述

3. 挖掘结论分析与建议

决策树:

在这里插入图片描述

分析及建议:

该模型用于预测客户的风险等级(A、B、C或D),基于几个关键特征:居住类型(自购房或租房)、年龄和教育程度。

从这个决策树中可以得出以下几点:

  • 对于居住类型为“自购”的客户:
    • 如果年龄小于30岁且教育程度为本科及以上,则风险等级为A的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为B的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
  • 对于居住类型为“租”的客户:
    • 如果年龄小于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为D的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为C的概率较高。

基于这些信息,给出建议如下:

  1. 针对居住类型为“自购”的年轻高学历客户(年龄小于30岁且教育程度为本科及以上),他们可能具有较低的风险等级(A或B)。因此,对于这类客户,可以考虑提供更优惠的产品和服务,以吸引并保留他们。

  2. 相反地,针对居住类型为“租”且年龄较大、教育程度较低的客户(年龄大于等于30岁且教育程度为本科及以下),他们可能具有较高的风险等级(C或D)。因此,在与这类客户打交道时要更加谨慎,并采取相应的风险管理措施。

  3. 对于居住类型为“租”的年轻低学历客户(年龄小于30岁且教育程度为本科及以下),他们的风险等级也相对较高(C)。因此,需要对他们进行更多的关注和管理,以便及时发现潜在问题并采取相应措施。

依赖关系网络

在这里插入图片描述

在这里插入图片描述

图中可以看出,最强连接是居住类型,也就是客户是否有房

说明:以上分析均不考虑连续收入,因为连续数据实在不好重新标注,可以把它当成单独的重要因素进行挖掘

二、欺诈人口属性分析与挖掘(同样为不考虑收入因素)

基于消费历史记录表

1. 数据预处理

在这里插入图片描述

1.1 分析关键影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

根据表格中的数据,我们可以得到以下结论:

  1. 日均消费金额:当日均消费金额在7到12次之间时,欺诈的可能性更高(红色);而在5到7次之间时,欺诈的可能性较低(绿色)。
  2. 卡类别的影响:白金卡和金卡的欺诈可能性较低(绿色),而普卡的欺诈可能性较高(红色)。
  3. 客户号的影响:某些特定的客户号(999993847675和999993864022)有较高的欺诈可能性(红色)。
  4. 额度的影响:额度为100000的信用卡存在较高的欺诈可能性(红色)。

综上所述,银行或其他金融机构可以根据这些信息调整其风险管理策略。例如,对于日均交易次数较多、持有普卡、拥有特定客户号以及信用额度较大的账户,应加强监控和审核,以降低欺诈风险。同时,也可以通过提高安全措施、实施更严格的审批流程等方式来防范欺诈行为。

1.2 类别检测

在这里插入图片描述在这里插入图片描述

  • 类别1的用户主要进行小额交易,无论是单笔最小还是最大金额都很低。
  • 用户的日均交易次数处于中等水平,表明他们是频繁但非过度使用者。
  • 使用的卡片多为普通卡,可能意味着这些用户尚未达到升级卡级别的资格或需求。
  • 所有记录都没有欺诈行为,这可能是因为这一类别的用户交易模式较为常规,不容易被标记为欺诈。

1.3 突出显示异常值

在这里插入图片描述

选择删除异常值

2. 数据挖掘

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

决策树

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

分析建议

通过这个决策树模型,我们可以看出日均交易次数和额度对欺诈行为的影响。具体来说,当日均交易次数较高(大于等于4次且小于6次),并且额度不是固定值10000元时,欺诈的可能性会增加。因此,银行或其他金融机构可以通过监控这类账户来提高风险预警能力,并采取相应的预防措施,如加强审核或设置更高的安全阈值。

此外,该模型也可以帮助我们了解欺诈行为发生的概率随日均交易次数和额度变化的趋势。例如,在日均交易次数较低(小于4次)或额度固定为10000元时,欺诈行为的概率较小。这有助于优化风控策略,比如设定不同的风险评估标准以适应不同的用户行为模式。

聚类

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

通过这个图形,我们可以看到不同分类之间的差异。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。另一方面,分类3的用户额度最低,日均交易次数最少,且单笔消费的最大金额也最低。这可能表明分类1的用户是高价值客户,而分类3的用户可能是新用户或低活跃度用户。

在这里插入图片描述

在这里插入图片描述

分析与建议

要深入分析这些数据,我们需要知道每个分类的具体含义,例如,它们可能代表不同的用户群体,如新老用户、活跃度高低、信用评分等级等。有了这些额外信息,我们可以构建更精确的用户画像,从而制定更好的市场营销策略或风险管理政策。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。

一共聚类9个,关于其他类别的分析在这里不再详述。

三、excel数据挖掘总结

文章主要完成了两项重要任务:一是分析信用卡客户的信用等级影响因素,二是挖掘信用卡欺诈的人口属性特征。以下是具体总结:

首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。预处理阶段包括数据清理、变量转换和异常值处理。模型分析中,居住类型、年龄和教育程度被识别为决定客户信用等级的关键特征。例如,居住类型为自购房的年轻且受过高等教育的客户(年龄小于30岁,本科及以上)具有较低的风险等级(A或B)。相反,租房的、年龄较大且教育程度较低的客户(年龄30岁以上,本科以下)风险等级较高(C或D)。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。

其次,关于信用卡欺诈的人口属性分析,文章基于消费历史记录表进行了数据预处理和决策树建模。分析结果显示,日均消费金额、卡类别、特定客户号和额度是欺诈行为的关键影响因素。日均消费金额在7到12次之间欺诈可能性更高,普卡的欺诈可能性比白金卡和金卡高,特定客户号和大额度信用卡存在较高的欺诈风险。进一步的类别检测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。

测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。


至此,该项目完成,使用到数据源4个表中的两个;涉及到的数据集与挖掘报告pdf版本均已上传资源,资源名与本文标题一致,如果觉得图片不清晰,可以下载资源查看pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1901612.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux下的网络编程

网络编程 1. 网络基础编程知识1.1网络字节序问题1.2 常用socket编程接口1.2.1 sockaddr1.2.2 ip地址转换函数1.2.4 socket()1.2.3 bind()1.2.4 listen()1.2.5 accept()1.2.6 connect() 1.3 以udp为基础的客户端连接服务器的demo1.4 以udp为基础的的服务器聊天室功能demo1.5 基于…

解决 MEX 文件 ‘xxx.mexw64‘ 无效: 找不到指定的模块。的问题

1.问题描述 在matlab R2021b中运行编译好后的gptoolbox工具箱中的函数[SVtemp,SFtemp,IF] selfintersect(V,F);报错如下 MEX 文件 E:\MATLAB_File\gptoolbox\mex\selfintersect.mexw64 无效: 找不到指定的模块。出错 offset_bunny (第 15 行) [SVtemp,SFtemp,IF] selfinter…

【pyqt-实训训练】串口助手

串口助手 前言一、ui设计二、ui的控件命名三、ui转py使用类的方法【扩展】使用ui文件导入!P7的小错误解决办法 总结 前言 我的惯例就是万物之始,拜见吾师🥰⇨pyqt串口合集 最开始的时候我想的是,学了那么久的pyqt,我…

加入新数据预测,基于黏菌优化算法SMA优化SVM支持向量机回归预测(多输入单输出)

加入新数据预测,基于黏菌优化算法SMA优化SVM支持向量机回归预测(多输入单输出) 1.数据均为Excel数据,直接替换数据就可以运行程序。 2.所有程序都经过验证,保证程序可以运行。 3.具有良好的编程习惯,程序…

Spark查询当前用户下所有账号的余额,如果当天没有余额则使用最近的余额

在使用Apache Spark进行数据分析时,你可能会处理一个包含用户账户和余额信息的数据集。如果你想要查询当前用户下所有账号的余额,并且如果当天没有余额记录,则使用最近的余额,你可以按照以下步骤进行: 数据准备&#x…

要想贵人相助,首先自己得先成为贵人!

点击上方△腾阳 关注 转载请联系授权 在金庸江湖里,有两位大侠,一个是萧峰,一个是郭靖。 郭靖在《射雕英雄传》里是绝对的主角,在《神雕侠侣》当中也是重要的配角,甚至可以说是第二主角。 谈起郭靖,很多…

【Linux进阶】文件系统7——文件系统简单操作

1.磁盘与目录的容量 现在我们知道磁盘的整体数据是在超级区块中,但是每个文件的容量则在inode 当中记载。 那在命令行模式下面该如何显示这几个数据?下面就让我们来谈一谈这两个命令: df:列出文件系统的整体磁盘使用量&#xf…

使用Vue实现前后端分离 spring框架返回json数据中文乱码

java json数据返回值中文乱码 出现&#xff1f;&#xff1f;&#xff1f; - _xkoko - 博客园 (cnblogs.com) 引入js的script标签到底是放在head还是body中_html页面中用<script>标签引入js代码,该标签放在<head>标签中和放在<body>标签-CSDN博客 vue.js 的问…

进程的控制-ps和kill命令

ps 查看进程信息 部分参数&#xff1a; a : 显示现行终端机下的所有程序&#xff0c;包括其他用户的程序 u: 以用户为主的格式来显示程序状况 x: 显示所有程序&#xff0c;不以 终端机来区分 kill 向指定的进程发送信号 kill 可将指定的信息送至程序。预设的信息为 SIG…

最新版情侣飞行棋dofm,已解锁高阶私密模式,单身狗务必绕道!(附深夜学习资源)

今天阿星要跟大家聊一款让阿星这个大老爷们儿面红耳赤的神奇游戏——情侣飞行棋。它的神奇之处就在于专为情侣设计&#xff0c;能让情侣之间感情迅速升温&#xff0c;但单身狗们请自觉绕道&#xff0c;不然后果自负哦&#xff01; 打开游戏&#xff0c;界面清新&#xff0c;操…

转发服务器实验

首先先克隆一个虚拟机并完成ip地址的修改 nmcli connection modify ens160 ipv4.addresses 192.168.209.128/24 nmcli connection modify ens160 ipv4.method manual nmcli connection modify ens160 connection.autoconnect yes nmcli connection up ens160 nmcli connection…

20240706 每日AI必读资讯

&#x1f680;Meta 发布 AI 重磅炸弹&#xff1a;多标记预测模型现已开放研究 - 新技术采用多标记预测方法&#xff0c;有望提高性能并缩短训练时间。 - 模型同时预测多个未来单词&#xff0c;可能改善语言结构和上下文理解。 - multi-token prediction模型是Facebook基于大…

大语言模型与知识图谱结合发展方向

引言 在人工智能的发展历程中&#xff0c;大语言模型&#xff08;LLM&#xff09;的出现标志着一个重要的转折点。随着深度学习技术的突破和计算能力的提升&#xff0c;LLM以其前所未有的规模和复杂性&#xff0c;开启了迈向人工通用智能&#xff08;AGI&#xff09;的新浪潮。…

打卡第4天----链表

通过学习基础,发现我的基本功还得需要再练练,思路得再更加清晰明了,这样子做算法题才能驾轻就熟。每天记录自己的进步。 一、两两交换 题目编号:24 题目描述: 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本…

Linux 防火墙配置指南:firewalld 端口管理应用案例(二十个实列)

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f427;Linux基础知识(初学)&#xff1a;点击&#xff01; &#x1f427;&#x1f427;Linux高级管理专栏&#xff1a;点击&#xff01; &#x1f510;Linux中firewalld防火墙&#xff1a;点击&#xff01; ⏰️…

解决vscode配置C++编译带有中文名称报错问题

在新电脑上安装vscode运行带有中文路径和中文名称的C代码时遇到报错 根据别人的教程将laugh.json文件中"program": "${fileDirname}\\${fileBasenameNoExtension}.exe",改成了"program": "${fileDirname}\\output\\test.exe",&#x…

c与c++的内存管理

给出内存四个分区名字&#xff1a;栈区、堆区、全局区&#xff08;俗话也叫静态变量区&#xff09;、代码区&#xff08;也叫代码段&#xff09;&#xff08;代码段又分很多种&#xff0c;比如常量区&#xff09; 当然也会看到别的定义如&#xff1a; 两者都正确&#xff0c;记…

suricata7 rule加载(一)加载 action

suricata7.0.5 一、前提条件 1.1 关键字注册 main | --> SuricataMain|--> PostConfLoadedSetup|--> SigTableSetupsigmatch_table是一个全局数组&#xff0c;每个元素就是一个关键字节点&#xff0c;是对关键字如何处理等相关回调函数。非常重要的一个结构&#x…

【论文解读】AGENTLESS:揭开基于LLM的软件工程代理的神秘面纱,重塑软件工程自动化新基线

&#x1f4dc; 文献卡 英文题目: Agentless: Demystifying LLM-based Software Engineering Agents;作者: Chunqiu Steven Xia; Yinlin Deng; Soren Dunn; Lingming ZhangDOI: 10.48550/arXiv.2407.01489摘要翻译: 大型语言模型&#xff08;LLM&#xff09;的最新进展显著推进…

【pytorch19】交叉熵

分类问题的loss MSECross Entropy LossHinge Loss &#xff08;SVN用的比较多&#xff09; ∑ i m a x ( 0 , 1 − y i ∗ h θ ( x i ) ) \sum_imax(0,1-y_i*h_\theta(x_i)) ∑i​max(0,1−yi​∗hθ​(xi​)) Entropy&#xff08;熵&#xff09; Uncertainty&#xff08;…