番茄知识星球平台上周开始推出信贷业务年终总结的系列文章,首篇主题为客户特征画像,并已在平台发布(12月13日),感兴趣童鞋可前翻查阅。作为系列专题的续集,本篇将围绕信贷存量数据为大家带来第二个主题“贷中行为分析”,其核心内容是根据某信贷业务客群的历史还款明细数据,来分析汇总不同客户群体在还款周期内的行为表现,从而了解贷中客户群体的整体业务状况,以及各类客户的分布特点。
1、实例样本介绍
在介绍本文主题相关内容时,我们仍然以实例模拟数据与python代码实操相结合,全面理解并实践整个数据分析过程。本文选取的实例样本数据,来自于客户还款信息明细表,共包含136224条样本与11个字段,每条样本观测代表某客户某一分期的还款详情,包括放款日期、放款金额、合同金额、产品期数、应还日期、结清日期、应还金额、已还金额、待还金额等详细字段,部分数据样例如图1所示,具体特征字典如图2所示。其中,字段apply_id为样本主键,同一客户订单号下包含多条分期还款明细数据,以样本apply_id=15357394149为例,由于对应产品期数(periods_num)为6,则此客户共有6条样本数据,分别体现从1至6每期的还款状态与行为表现。
图1 样本数据样例
图2 特征字典详情
2、整体业务情况
针对以上样本数据,我们先来了解下数据的整体情况,包括日期窗口、客户数量、期数类型、额度范围、应收总额、已还总额、待还总额等,具体实现过程详见知识星球代码详情,输出结果如图4所示。
图4 整体情况指标
根据以上分析指标结果,可以大体了解到业务的基本情况,产品分期包含3种类型,额度范围为100012000,在时间窗口2020040120201230内,共放款12741笔,放款总金额为73144600,本金与利息形成的合同总金额为84589667。此外,对于应还总金额,理论上与合同总金额一致,但由于实际场景中会存在优惠券抵扣等情况,使得应还总金额低于合同总金额。
由于放款月份(loan_date)、放款额度(loan_amount)、产品期数(period_num)等维度均为业务分析的重要指标,因此我们在实际场景中有必要对其展开进一步的细化分析,从而了解不同放款月份、不同放款额度、不同产品期数维度下的订单数量、放款金额、还款金额等分布情况。这里我们以订单数量指标为例,首先来了解下各个放款月份(loan_date)的分布表现,具体分析过程详见知识星球代码详情,相应结果如图6所示。
图6 放款月份的订单分布
针对放款额度(loan_amount)的分析,由于授信额度的取值较多,为了便于数据汇总与结果展现,可以将其转换为额度区间来进行分析,本例以额度差1000为间隔,将各个单一额度取值以额度区间形式表示,具体实现过程详见知识星球代码详情,输出分布结果如图8所示。
图8 放款额度的订单分布
通过以上结果可知,当前产品的放款额度主要集中在[6000,7000)、[8000,9000)、[3000,5000)区间,以[6000,7000)的占比最高(32.2659%)。下面我们再来了解下产品期数(period_num)的类型分布,具体分析过程如图9所示,输出分布结果如图10所示,可见6期订单形式占主要类型,数量占比(82.6073%)明显高于9、12期类型。
图10 产品期数的订单分布
3、订单分期状态
以上分析过程是针对业务整体情况的了解,而对于客户贷中期间的分期还款表现,是本文需要研究的重点内容,接下来我们将围绕客户不同还款周期的数据表现,来探究不同还款状态的详细指标分布。对于还款状态的类型划分,这里需要重点根据应还日期(repay_date)、结清日期(clear_date)来进行分析,同时还需参考一个当前分析日期,以判断客户相应订单的还款状态,具体分为以下几种类型:
(1)提前还款:结清日期<应还日期(结清日期不为空)
(2)正常还款:结清日期=应还日期
(3)逾期已还:结清日期>应还日期
(4)逾期未还:当前日期>=应还日期(结清日期为空)
(5)未到还款日:当前日期<应还日期(结清日期为空)
本文样例数据的应还日期(repay_date)最晚日期为20211229,我们若以时间窗口2022年来分析,所有用户的分期订单均已到还款日,也就是不存在以上“未到还款日”的状态,因此我们将按照其余4种还款状态(提前还款、正常还款、逾期已还、逾期未还)来分析所有分期订单数据,具体实现过程详见知识星球代码详情。
通过以上过程可以得到所有分期订单的还款状态详情,包括不同状态的订单数量、应还金额的描述分布结果,具体如图12、图13所示,可见在所有客户的全量分期订单中,从订单数量与应还金额2个维度分析,“正常还款”与“提前还款”2种类型均占1/3左右,此外约有18.71%数量占比的“逾期未还”订单,对应金额大小占比约为17.65%。
图12 订单状态数量分布
图13 订单状态金额分布
4、客户还款情况
针对所有分期订单的还款状态分析(提前还款、正常还款、逾期已还、逾期未还),虽然可以便于了解各期订单层的还款详情,但在实际场景中以客户层的分析总结,是我们最终需要获取的结果。因此,围绕前边各期订单还款状态的实现,我们来进一步将存量客群划分为以下几种类型:
(1)全部已还:分期订单还款状态均为还款(提前还款/正常还款/逾期已还);
(2)部分还款:分期订单还款状态存在逾期未还,但不全为逾期未还;
(3)全部未还:分期订单还款状态均为逾期未还。
对于客户3种还款情况的区分,具体实现过程如图14所示,输出各类型的频数分布如图15所示,相应的可视化分布如图16所示,可知全部已还的客户数量为9180,约占全量客群的72.05%;存在逾期还款的客户数量为3561(部分还款2946+全部未还615),占比约为27.95%。
图15 客户还款类型分布
图16 客户还款类型可视化
5、客户细化分层
对于“全部已还”、“部分还款”、“全部未还”这3种还款情况的客户层分析,一方面可以客观获知客群还款的表现差异,另一方面也可以侧面了解客户的风险程度或营销价值,即风险从低到高(或价值从高到低)的顺序为全部已还、部分还款、全部未还。同时,针对“全部已还”与“部分还款”的客群,根据每期订单还款状态的不同,还可以将客户进一步细化。其中,“全部已还”客群的分期订单由于包含提前还款、正常还款、逾期已还3种情形,且好坏比较可以归纳为提前还款>正常还款>逾期已还。因此,对于还款情况为“全部已还”的客户,“逾期已还”的分期订单数量越多,对应客户的风险程度越高,也可以理解为“提前还款”与“正常还款”的分期订单数量越多,客户的风险程度越低,这也是根据本实例数据对客户细化分层的主要思想。
按照以上“全部已还”客群的细化逻辑,同样包含多种分期还款状态的“部分还款”客户,结合订单数量分布最终可以形成多种组合情况,而在实践场景中为了便于数据分析,可以考虑根据“已还款”与“未还款”2种状态的分期数量来细化客户,其中“已还款”包括提前还款、正常还款、逾期已还,“未还款”即逾期未还。此外,对于“全部未还”的客户群体,由于各个分期订单均为“逾期未还”情形,自然没有细化可能。
围绕以上客户细化分层的原理逻辑,我们选取“全部已还”的客群作为样例来进行分析,由于同一还款情况的客户还存在分期数量的差异(6/9/12),这里我们以6期客群来扩展描述。在客户分层的参考维度上,由于“逾期已还”可以直接反映客户的风险程度,因此对于“全部已还”且同为6期类型的客群,“逾期已还”的订单数量越多,较大程度说明客户的风险越高。根据客户逾期已还(overdue_pay)订单数量的取值范围06,可以依次赋予等级AG,具体实现过程详见知识星球代码详情,输出的频数统计结果如图18所示,对应可视化分布如图19所示,可以直观了解到A等级客户为主要群体,客群占比约为67.7135%,代表全部分期订单均为正常还款或提前还款。
图18 全部已还客户细化
图19 全部已还可视化
对于“全部已还”的9期或12期客户,以及“部分还款”的6/9/12期客户,若实现客户细化分层,均可按照以上逻辑来完成,这不仅便于理解客群不同还款状态的分布情况,而且有助于客户群体的风险与营销管理。
综合以上内容,我们围绕信贷产品业务的客户还款表现,结合具体的实例样本数据,详细分析了客群从整体到局部的分布特点,重点对于分期订单的不同还款状态(提前还款、正常还款、逾期已还、逾期未还),以及客户综合订单的不同还款情况(全部已还、部分还款、全部未还),进行了较具体的特征描述与业务概况,这对信贷业务的年终总结有较好的参考意义。为了便于大家对客户还款行为分析的进一步理解与熟悉,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球查看相关内容。
…
~原创文章