R语言数据分析案例33-基于logistic回归下的信用卡违约情况分析

news2026/2/14 15:09:22

一、选题背景

随着互联网产业的蓬勃发展，传统金融行业开始向着金融互联网化和互联网金融快速转型。网络信贷、信用卡等凭借门槛低、快速便捷、高收益等特点，借助互联网平台存在的优势，迅速成长。然而高收益的背后也存在着高风险，由于其降低了借贷的门槛衍生出一系列包括非法集资、携款潜逃、电信诈骗等问题。如何防范用户欺诈和控制信用风险是近几年一直亟待解决的问题。为此，引入机器学习算法来优化信贷风控系统，促进信贷业务市场健康发展，不失为一条有效途径。.。。

二、文献综述

杨亿坤（2022）参考国内外先进金融机构对违约风险的预测方法,基于XGBoost模型构建农商银行客户信用卡的违约风险预测模型,为完善农商银行信用卡违约风险的控制提供参考借鉴。本文对农商银行信用卡违约风险进行研究。首先,基于行为金融、信息不对称等理论对影响信用卡持卡人违约行为的因素进行理论分析。其次,基于理论分析,构建信用卡违约风险预测的指标体系。第三,基于XGBoost模型构建农商银行信用卡违约风险预测模型。第四,搜集某农商银行信用卡中心数据,对基于XGBoost的农商银行信用卡违约风险预测模型进行实证分析,并与常用的模型进行对比分析[1]。。。。

三、理论方法

在信用卡违约风险的预测中，逻辑回归模型是一种常用模型。逻辑回归模型的形式简洁，如下所示：

其中，𝑥表示用于判断信用卡违约的各类指标，比如持卡人的性别、收入水平等。e表示不同指标对信用卡违约风险判断的权重分布，用来表示不同指标的重要性。𝐹(t)取值为0到1之间，可用来表示发生信用卡违约风险的概率。

如上式所示，逻辑回归主要根据各类信用卡违约风险指标的情况通过线性组合等方式，将指标值映射到[0,1]之间，以求取客户信用卡违风险的概率，由于其线性累加性，导致该模型的预测性能较为一般，但是可以作为基准模型用于对比其他模型。。。。

四、实证分析

本研究针对台湾客户信用卡违约支付的数据。这项研究使用了一个二进制变量，默认付款（default payment next month）（是 = 1，否 = 0）作为响应变量。本研究回顾了文献，并使用以下23个变量作为解释变量：

X1：给定信贷的金额（新台币）：它包括个人消费信贷和他/她的家庭（补充）信贷。

X2：性别（1 = 男性;2 = 女性）。

X3：教育（1 = 研究生院;2 = 大学;3 = 高中;4 = 其他）。

X4：婚姻状况（1 = 已婚;2 = 单身;3 = 其他）。

X5：年龄（年）

变量名称	变量解释
default payment next month	默认付款
X1	给定信贷的金额
X2	性别
X3	教育
X4	婚姻状况
X5	年龄（年）
X6 - X11	过去付款的历史记录
X12-X17	账单对账单金额
X18-X23	先前付款的金额

代码和数据

报告代码数据

展示数据前5行，看看基本情况，如图

在预处理数据之前，发现x12-17，x18-23分别为账单对账单金额（新台币）和先前付款的金额（新台币），对整体数据产生影响不大，故在数据处理时删除相关变量，最终特征变量为11个，接下来对整体数据进行描述性统计分析。

###读取数据
dataset<- read.xlsx("credit.xlsx", sheet = 1)
dataset
#展示数据前五行
head(dataset,5)

###查看数据统计特征
summary(dataset)

具体描述性统计如上，其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等。其中可以看到‘ID’这个变量对整体数据分析并无太大作用，可以忽略。。。。

下来画出每个特征变量的箱线图，查看每个特征的分布情况。

###分别画出其特征的箱线图
par(mfrow = c(2, 5)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$LIMIT_BAL, main = "LIMIT_BAL")
boxplot(dataset$SEX, main = "SEX")
boxplot(dataset$EDUCATION, main = "EDUCATION")
boxplot(dataset$MARRIAGE,main = "MARRIAGE")
boxplot(dataset$AGE, main = "AGE")
boxplot(dataset$PAY_1, main = "PAY_1")
boxplot(dataset$PAY_2, main = "PAY_2")
boxplot(dataset$PAY_3, main = "PAY_3")
boxplot(dataset$PAY_4, main = "PAY_4")
boxplot(dataset$PAY_5, main = "PAY_5")
boxplot(dataset$PAY_6, main = "PAY_6")

从上图特征变量的分布可以看出，变量给定信贷的金额（新台币）特征的离群点较多，SEX和MARRIAGE的分布较稳定，剩余特征由于是分类型数值变量，故其变量的箱线图才会呈现出这个样子。

从相关系数热力图可以看出，针对响应变量default payment next month，变量PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6对响应变量影响相当于其他变量较大，而且是呈现正相关关系，给定信贷的金额特征对响应变量呈现负相关关系。

在数据和特征处理完成之后，接下来便进行logsitic回归，结果如下：

###logistic回归
fit.full <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE + 
                  AGE + PAY_1 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6,
                data=dataset,family=binomial())
summary(fit.full)

从回归系数的p值（最后一列）可以看到，给定信贷的金额、性别、教育程度、婚姻状况、年龄、过去付款的历史记录，其中包括2005年9月的还款情况、2005年8月的还款情况和2005年7月的还款情况对方程的贡献都很显著，但是2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况对方程的贡献都不显著（无法拒绝参数为0的假设）。这便可以去除这些变量重新拟合模型，检验新模型是否拟合的好，结果如下：

fit.reduced <- glm(default.payment.next.month ~ LIMIT_BAL + SEX + EDUCATION + MARRIAGE +AGE + PAY_1 + PAY_2 + PAY_3