R语言数据分析案例33-基于logistic回归下的信用卡违约情况分析

news2024/11/26 10:27:05

一、选题背景

随着互联网产业的蓬勃发展,传统金融行业开始向着金融互联网化和互联网金融快速转型。网络信贷、信用卡等凭借门槛低、快速便捷、高收益等特点,借助互联网平台存在的优势,迅速成长。然而高收益的背后也存在着高风险,由于其降低了借贷的门槛衍生出一系列包括非法集资、携款潜逃、电信诈骗等问题。如何防范用户欺诈和控制信用风险是近几年一直亟待解决的问题。为此,引入机器学习算法 来优化信贷风控系统,促进信贷业务市场健康发展,不失为一条有效途径。.。。

二、文献综述

杨亿坤(2022)参考国内外先进金融机构对违约风险的预测方法,基于XGBoost模型构建农商银行客户信用卡的违约风险预测模型,为完善农商银行信用卡违约风险的控制提供参考借鉴。本文对农商银行信用卡违约风险进行研究。首先,基于行为金融、信息不对称等理论对影响信用卡持卡人违约行为的因素进行理论分析。其次,基于理论分析,构建信用卡违约风险预测的指标体系。第三,基于XGBoost模型构建农商银行信用卡违约风险预测模型。第四,搜集某农商银行信用卡中心数据,对基于XGBoost的农商银行信用卡违约风险预测模型进行实证分析,并与常用的模型进行对比分析[1]。。。。

三、理论方法

在信用卡违约风险的预测中,逻辑回归模型是一种常用模型。逻辑回归模型的形式简洁,如下所示:

其中,𝑥表示用于判断信用卡违约的各类指标,比如持卡人的性别、收入 水平等。e表示不同指标对信用卡违约风险判断的权重分布,用来表示不同 指标的重要性。𝐹(t)取值为0到1之间,可用来表示发生信用卡违约风险的概率。

如上式所示,逻辑回归主要根据各类信用卡违约风险指标的情况通 过线性组合等方式,将指标值映射到[0,1]之间,以求取客户信用卡违风险的概率,由于其线性累加性,导致该模型的预测性能较为一般,但是可以作为基准模型用于对比其他模型。。。。

四、实证分析

本研究针对台湾客户信用卡违约支付的数据。这项研究使用了一个二进制变量,默认付款(default payment next month)(是 = 1,否 = 0)作为响应变量。本研究回顾了文献,并使用以下23个变量作为解释变量:

X1:给定信贷的金额(新台币):它包括个人消费信贷和他/她的家庭(补充)信贷。

X2:性别(1 = 男性;2 = 女性)。

X3:教育(1 = 研究生院;2 = 大学;3 = 高中;4 = 其他)。

X4:婚姻状况(1 = 已婚;2 = 单身;3 = 其他)。

X5:年龄(年)

变量名称

变量解释

default payment next month

默认付款

X1

给定信贷的金额

X2

性别

X3

教育

X4

婚姻状况

X5

年龄(年)

X6 - X11

过去付款的历史记录

X12-X17

账单对账单金额

X18-X23

先前付款的金额

代码和数据

报告代码数据

展示数据前5行,看看基本情况,如图

在预处理数据之前,发现x12-17,x18-23分别为账单对账单金额(新台币)和先前付款的金额(新台币),对整体数据产生影响不大,故在数据处理时删除相关变量,最终特征变量为11个,接下来对整体数据进行描述性统计分析。

###读取数据
dataset<- read.xlsx("credit.xlsx", sheet = 1)
dataset
#展示数据前五行
head(dataset,5)

###查看数据统计特征
summary(dataset)

具体描述性统计如上,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等。其中可以看到‘ID’这个变量对整体数据分析并无太大作用,可以忽略。。。。

下来画出每个特征变量的箱线图,查看每个特征的分布情况。

###分别画出其特征的箱线图
par(mfrow = c(2, 5)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$LIMIT_BAL, main = "LIMIT_BAL")
boxplot(dataset$SEX, main = "SEX")
boxplot(dataset$EDUCATION, main = "EDUCATION")
boxplot(dataset$MARRIAGE,main = "MARRIAGE")
boxplot(dataset$AGE, main = "AGE")
boxplot(dataset$PAY_1, main = "PAY_1")
boxplot(dataset$PAY_2, main = "PAY_2")
boxplot(dataset$PAY_3, main = "PAY_3")
boxplot(dataset$PAY_4, main = "PAY_4")
boxplot(dataset$PAY_5, main = "PAY_5")
boxplot(dataset$PAY_6, main = "PAY_6")

从上图特征变量的分布可以看出,变量给定信贷的金额(新台币)特征的离群点较多,SEX和MARRIAGE的分布较稳定,剩余特征由于是分类型数值变量,故其变量的箱线图才会呈现出这个样子。

从相关系数热力图可以看出,针对响应变量default payment next month,变量PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6对响应变量影响相当于其他变量较大,而且是呈现正相关关系,给定信贷的金额特征对响应变量呈现负相关关系。

在数据和特征处理完成之后,接下来便进行logsitic回归,结果如下:

###logistic回归
fit.full <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE + 
                  AGE + PAY_1 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6,
                data=dataset,family=binomial())
summary(fit.full)

从回归系数的p值(最后一列)可以看到,给定信贷的金额、性别、教育程度、婚姻状况、年龄、过去付款的历史记录,其中包括2005年9月的还款情况、2005年8月的还款情况和2005年7月的还款情况对方程的贡献都很显著,但是2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况对方程的贡献都不显著(无法拒绝参数为0的假设)。这便可以去除这些变量重新拟合模型,检验新模型是否拟合的好,结果如下:

fit.reduced <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE +AGE + PAY_1 + PAY_2 + PAY_3

模型卡方检验

最终结果表明卡方值不显著(p_value=0.1766),表明八个预测变量的新模型与九个完整预测变量的模型拟合程度一样好,这也表明2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况变量不会显著提高方程的预测精度。

五、结论与启示

本文对银行信用卡违约行为及风险进行研究。首先,以行为金融为基础, 分析信用卡违约行为发生的理论机制。其次,基于信用卡违约行为发生的理论分析。第三,以logistic模型为基础,通过对模型的适用性分析以及理论分析,构建对信用卡违约行为进行分析,最终得出相应的结论。。。。

参考文献

  1. 杨亿坤. 基于XGBoost模型的农商银行信用卡违约风险预测研究[D].西南财经大学,2022.DOI:10.27412/d.cnki.gxncu.2022.001532.
  2. 周芄,王勇.基于集成学习的用户信用卡违约预测模型研究[J].井冈山大学学报(自然科学版),2022,43(04):51-56.

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1849109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker配置阿里云加速器(2续)

默认情况下镜像是从docker hub下载&#xff0c;由于docker hub服务器在国外&#xff0c;由于网络原因镜像下载速度较慢&#xff0c;一般会配置镜像加速进行下载 国内镜像加速器有阿里云、网易云、中科大等&#xff0c;本章配置阿里云镜像加速器&#xff0c;速度较快 镜像加速源…

JavaWeb——SQL简介

1. SQL的介绍 SQL是一门结构化查询语言&#xff0c;就是一门用来操作关系型数据库的数据库语言&#xff1b; 使用SQL语句&#xff0c;可以操作所有的关系数据库&#xff1b; 但是&#xff0c;不同的关系型数据库的SQL操作略有不同&#xff0c;称为“方言”&#xff1b; 2. S…

408数据结构-图的遍历 自学知识点整理

前置知识&#xff1a;图的存储与基本操作 图的遍历是指从图的某一顶点出发&#xff0c;按照某种搜索方法沿着图中的边对图中的所有顶点访问一次&#xff0c;且仅访问一次。因为树是一种特殊的图&#xff0c;所以树的遍历实际上也可以视为一种特殊的图的遍历。图的遍历算法是求解…

excel数据透视

Excel中&#xff0c;数据透视图&#xff08;PivotChart&#xff09;和数据透视表&#xff08;PivotTable&#xff09;是两个紧密相关的工具&#xff0c;用于分析数据。数据透视表是数据透视图的数据源&#xff0c;也就是说&#xff0c;数据透视图是基于数据透视表中的数据创建的…

matplotlib 创建多个子图

有些时候我们需要用for循环来创建多个子图&#xff0c;来对比特征。现在已画出8组随机数来作为示例。 from matplotlib import pyplot as plt import numpy as np #设置画布大小 figplt.figure(figsize(20,8)) #解决中文乱码问题 plt.rcParams[font.sans-serif] [SimHei] fo…

BlockingQueue详解(含动画演示)

目录 BlockingQueue详解0、BlockingQueue简介BlockingQueue接口中方法注释BlockingQueue的实现&#xff0c;总结计划 1、ArrayBlockingQueue简介2、ArrayBlockingQueue的继承体系3、ArrayBlockingQueue的构造方法①、 ArrayBlockingQueue(int capacity)②、ArrayBlockingQueue(…

HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习

前言 今天只是一个平常的日子&#xff0c;不过看到了两篇文章 一篇是《半年冒出近百家新公司&#xff0c;「具身智能」也有春天》 我看完之后转发到朋友圈&#xff0c;并评论道&#xff1a;让机器人翻一万个后空翻&#xff0c;不如让机器人打好一个螺钉&#xff0c;毕竟在目前…

Python酷库之旅-第三方库openpyxl(03)

目录 一、 openpyxl库的由来 1、背景 2、起源 3、发展 4、特点 4-1、支持.xlsx格式 4-2、读写Excel文件 4-3、操作单元格 4-4、创建和修改工作表 4-5、样式设置 4-6、图表和公式 4-7、支持数字和日期格式 二、openpyxl库的优缺点 1、优点 1-1、支持现代Excel格式…

html--404页面

<!DOCTYPE html> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetUTF-8"> <meta http-equiv"X-UA-Compatible" content"IEedge,chrome1"> <title>404 错误页面不存在&…

01--MySQL数据库概述

目录 第1章 MySQL数据库概述 1.1 基本概念 1.2 MySQL数据库管理系统 1.3 表的关系 第2章 MySQL卸载、安装、登录 第3章 客户端使用演示 3.1 命令行客户端 3.1.1 数据库 3.1.2 数据表 3.1.3 导入数据 3.1.4 导出数据 3.2 可视化客户端 第4章 SQL语句 4.1 SQL的分类…

C#实现高斯模糊(图像处理)

在C#中实现高斯模糊&#xff0c;可以使用System.Drawing库。高斯模糊是一种基于高斯函数的滤波器&#xff0c;它可以有效地平滑图像。以下是详细的步骤&#xff0c;包括生成高斯核并应用到图像上的代码示例。 1. 生成高斯核 首先&#xff0c;我们需要编写一个方法来生成高斯核…

碳+绿证如何能源匹配?考虑碳交易和绿证交易制度的电力批发市场能源优化程序代码!

前言 近年来&#xff0c;面对日益受到全社会关注的气候变化问题&#xff0c;国外尤其是欧美等发达国家和地区针对电力行业制定了一系列碳减排组合机制。其中&#xff0c;碳排放权交易&#xff08;以下简称“碳交易”&#xff09;和绿色电力证书交易&#xff08;以下简称“绿证…

JAVA医院绩效考核系统源码 功能特点:大型医院绩效考核系统源码

JAVA医院绩效考核系统源码 功能特点&#xff1a;大型医院绩效考核系统源码 医院绩效管理系统主要用于对科室和岗位的工作量、工作质量、服务质量进行全面考核&#xff0c;并对科室绩效工资和岗位绩效工资进行核算的系统。医院绩效管理系统开发主要用到的管理工具有RBRVS、DRGS…

【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——下

1.从某超市顾客中随机抽取5名&#xff0c;他们的购物篮数据的二元0/1表示如下&#xff1a; 顾客号 面包 牛奶 尿布 啤酒 鸡蛋 可乐 1 1 1 0 0 0 0 2 1 0 1 1 1 0 3 0 1 1 1 0 1 4 1 1 1 1 0 0 5 1 1 1 0 0 1 某学生依据这些数据做…

【2024.6.22】今日科技时事:科技前沿大事件

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

《STM32 HAL库》CAN通信系列函数详尽解析——HAL_CAN_Init()

食用指南&#xff1a;本文主要内容为梳理CAN初始化函数主要运行逻辑及重点功能实现代码的详尽解析。函数源码在文末&#xff0c;建议在阅读源码之后观看。 CAN相关寄存器图&#xff1a; 主要逻辑分析&#xff1a; 下面分点梳理函数的主要逻辑&#xff08;注意逻辑序号&#xf…

为何云原生是未来?企业IT架构的颠覆与重构

&#x1f407;明明跟你说过&#xff1a;个人主页 &#x1f3c5;个人专栏&#xff1a;《未来已来&#xff1a;云原生之旅》&#x1f3c5; &#x1f516;行路有良友&#xff0c;便是天堂&#x1f516; 目录 一、引言 1、什么是云原生 2、云原生的背景和起源 背景 起源 关…

打字侠,中小学生暑期的打字练习神器

亲爱的家长们&#xff0c;暑假来临&#xff0c;孩子们又要开始“沙发上的咸鱼”模式了&#xff01;与其看着他们抱着手机、平板不放&#xff0c;不如让他们成为“打字侠”&#xff0c;在快乐中提升打字技能&#xff01; “打字侠”是一款为中小学生量身打造的打字练习神器。别…

WPF 程序 分布式 自动更新 登录 打包

服务器server端 core api 客户端WPF // 检查应用更新 //1、获取最新文件列表 // var files fileService.GetUpgradeFiles(); // 2、文件判断&#xff0c;新增的直接下载&#xff1b;更新的直接下载&#xff1b;删除的直接删除 // 客户端本地需要一个记录…

宇宙星空星辰美景素材哪里找?高清无水印分享

宇宙星空的美丽总能激发人们的无限遐想和灵感&#xff0c;不仅在科学教育领域&#xff0c;更在电影制作和视觉艺术中占有一席之地。为了帮助您找到高质量的宇宙星空视频素材&#xff0c;以下平台将成为您获取令人难忘天体视频素材的首选。 蛙学府 蛙学府作为新媒体创作者的宝库…