临近年末,围绕信贷产品业务的年终总结,是各家金融机构或科技公司的必要工作内容之一。根据实际业务的数据表现进行汇总分析,不仅为回顾过去业务经营的全貌特点,提供了客观的数据分布描述,而且对后期业务开展的策略制定与实施,具有非常重要的信息参考价值。结合以上实际业务背景,番茄知识星球将为大家推出一套以信贷业务年终总结为主题的系列文章,分别为客户特征画像、贷前风控策略、贷中行为分析、贷后风险表现、风控模型应用。各主题文章均会围绕实际业务场景,来展开相关数据分析过程的描述,本篇将为大家介绍信贷业务年终总结之客群特征画像。
1、实例场景样本分析
为了便于大家对客户画像的全面理解,本文结合具体的实例样本数据来展开分析。本文选取的信贷样本数据包含5000条样本与8个字段,部分数据样例如图1所示。其中,apply_id、date_month、loan_amount、address_details字段为申请订单的基本信息,gender_type、marriage_type、birth_day、address_details字段为客户身份的部分属性信息,各特征的标签含义与取值类型具体如图2所示。
图1 样本数据样例
图2 样本特征字典
此样本数据的时间窗口date_month为202101~202112,假设代表某金融机构信贷产品1年的实际业务表现。为了便于数据分析,这里不区分新老用户,各样本均代表客户的唯一订单信息。现围绕以上样本数据,我们对此信贷场景的客群特征分布进行画像描述,具体特征分析将从单一维度、交叉维度两个方面来实现,从而通过数据来有效反映产品的业务规模,以及客群的分布特点。此外,对于重要维度的数据表现,我们采取可视化图表的形式来直观呈现。
对于年龄、地址等特征字段,作为用户的基本身份信息,是画像描述的重要维度,而原样本数据是以出生日期(birth_day)、户籍地址(address_details)来呈现信息的,显然不便于数据的统计描述,因此这里需要对这2个字段进行解析,以加工得到用户的年龄(age)、省市(province)。其中,年龄age以区间形式展开分析,更有利于客群特征分布的体现,在此我们将对样本用户的age以5岁为间隔进行分段表示,例如2025、2630等,具体实现过程如图3所示。
图3 年龄加工过程
针对户籍地址(address_details)信息,以第1条样本数据为例“山东省招远市辛庄镇朱宋村365号”,若通过此类明细数据来分析客群特点是不符合业务需求的,而选择省市维度来分组汇总是通用的有效方式,因此我们对地址详细数据进行加工,提取出各样本用户对应的省市地址province,这里采用python环境中的cpca工具来实现,可自动解析出地址相应的省、市、区县、代码等信息,具体过程如图4所示,样本前10条数据的解析结果如图5所示。在后续对客群特征画像的实践中,我们仅需要提取出地址特征“省(province)”信息即可,可以便于了解各省市的订单数量、放款金额等情况。
图4 地址解析过程
图5 地址解析结果
此外,由于放款金额(loan_amount)的取值分布情况较多,其最小值为2000,最大值为15000,对此我们采用与特征年龄(age)同样的数据转换思路,将放款金额(loan_amount)转化为区间形式来进行分析,标签结果以字段amount_bin来表示,放款额度区间范围的间隔大小为1000,例如[2000,3000)、[3000,4000)等,具体实现过程如图6所示。
图6 放款额度区间实现
2、整体业务情况预览
当样本数据经过适当处理后,接下来我们将对业务表现数据进行分析,首先来了解下产品整体的实际业务情况,常见的维度包括期数类型、额度范围、区域范围等产品基本属性,以及放款总额、用户数量、件均金额等业务运营特点。这里结合样本数据已有的特征情况,选取部分主要分析维度来进行介绍,包括放款总额、订单数量、件均金额、最大额度、最小额度、额度种类、期数类型、放款省份等,具体实现过程如图7所示,输出指标结果如图8所示。
图7 产品整体情况分析
图8 产品整体分布特点
由以上结果可知,可以大体了解当前产品的基本情况,产品的分期类型包含3种形式(6/9/12,后续有详细分析);放款区域的省市数量达到30个,接近于全国范围;授信额度范围为200015000元,属于小额贷款范畴,具体额度有一定程度的差异,共有23种额度大小情况,放款额度件均5586元;在202101202112全年经营中,业务放款订单数量为5000,放款总额规模为27932100元。
3、订单数量维度分析
在简单熟悉了业务的整体情况之后,接下来我们根据订单数量、放款总额、件均金额这3个业务分析维度来展开分析,具体将通过特征的单一维度进行描述,包括放款月份、性别类型、婚姻状况、产品期数、年龄区间、放款额度、省市地址共7个细化特征维度。
订单数量分布将选取以上7个特征维度来展开分析,对应样本数据的字段分别为date_month、gender_type、marriage_type、period_num、age_bin、amount_bin、province,可以全方位了解信贷交易数量的分布情况,通过自定义函数的实现过程如图9所示。
图9 订单数量分布实现
根据以上订单数量分布的实现逻辑,各特征维度的分布结果输出,通过指定待分析特征var,直接调用函数analysis1(var)即可完成,例如特征维度“放款月份”的实现方法为analysis1(‘date_month’) ,所有维度的具体分析过程如图10所示,相应输出各特征取值维度下的频数与占比。
图10 订单数量分布输出
3.1 放款月份
放款月份(date_month)维度的订单数量明细结果如图11所示,对应可视化分布如图12所示,可以看出年末最后3个月(202110202112)的订单数量偏高,约占全年订单总量的1/3以上,而202103月份的订单数量最低(4.6%),其余月份的订单数量占比均保持在总订单数量5%10%的较稳定范围。
图11 放款月份的订单数量明细
图12 放款月份的订单数量分布
3.2 性别类型
性别类型(gender_type)维度的订单数量明细结果如图13所示,对应可视化分布如图14所示,可以看出历史1年的信贷交易中,男性用户的借贷订单数量明显居多,约为女性用户订单数量的2倍。
图13 性别类型的订单数量明细
图14 性别类型的订单数量分布
3.3 婚姻状况
婚姻状况(marriage_type)维度的订单数量明细结果如图15所示,对应可视化分布如图16所示,可以看出用户已婚与未婚的订单数量情况较为接近,大体呈现4:6的分布比例,已婚用户的数量相对较多。
图15 婚姻状况的订单数量明细
图16 婚姻状况的订单数量分布
3.4 产品期数
产品期数(period_num)维度的订单数量明细结果如图17所示,对应可视化分布如图18所示,可以看出期数6、9、12这3种类型中,6期的订单数量最多,占比为63.3%,而9期的订单数量仅占11.6%,由此可便于了解用户对还款期限的选择偏向,有利于对不同期数用户群体的风控管理。
图17 产品期数的订单数量明细
图18 产品期数的订单数量分布
3.5 年龄区间
年龄区间(age_bin)维度的订单数量明细结果如图19所示,对应可视化分布如图20所示,可以看出随着用户年龄的增加,订单数量呈现出倒U型分布趋势,这与用户群体在不同年龄段的特征表现是相符的,即实际资金需求会有先上升后下降的趋势。其中,年龄区间段3135对应用户群体的订单数量最多(占比36.7%),约占订单总量的1/3以上,年龄区间段2630用户的订单占比次之(约占29.7%),因此年龄在区间2635的用户,是当前信贷产品的主要群体。年龄区间段为5155的用户群体最少,相应订单数量的占比仅有0.8%,从这里也可以看出此产品的年龄准入条件大概为20<=age<=55。
图19 年龄区间的订单数量明细
图20 年龄区间的订单数量分布
3.6 放款额度
放款额度(amount_bin)维度的订单数量明细结果如图21所示,对应可视化分布如图22所示,可以看出对于最小额度2000到最大额度15000的授信区间范围,额度为60007000的用户订单数量最多,占比约为31.1%;额度区间为30004000、40005000、80009000这3种情况的分布占比较为接近(18.5%、16.1%、20.0%);额度区间为70008000、900010000、2000~3000等其他情况的订单数量占比相对较少。
图21 放款额度的订单数量明细
图22 放款额度的订单数量分布
3.7 放款省份额度
放款省份(province)维度的订单数量明细结果如图23所示,对应可视化分布如图24所示,可以看出放款订单数量占比占5%以上的共有8个省份,其中排名前3的省份名称分别为广东省、江苏省、四川省,三者占比和约为24.4%(9.5%+7.8%+7.1%),而对于宁夏、新疆、青海等地区的订单数量占比均不足1%。
图23 放款省份的订单数量明细
图24 放款省份的订单数量分布(前10)
4、放款总额维度分析
放款总额分布将选取放款月份(date_month)、省市地址(province)这2个维度来展开分析,对于其他特征维度与之同理,具体实现过程如图25所示。
图25 放款总额分布实现
4.1 放款月份
放款月份(date_month)维度的放款总额明细结果如图26所示,对应可视化分布如图27所示,可以看出202110月份的放款金额规模最大(占比约为11.8%),202103月份的放款金额规模最小(占比约为5.1%),这与前文放款月份的订单数量分布结果(图11)是一致的,即订单数量最多(或最少),放款总额也最多(或最少),但这个结论是针对部分月份的数据表现,并非所有放款月份对应订单数量与放款总额的排序关系相同,其原因为件均金额的差异会影响最终放款金额规模的不同,例如202102月份的放款总额在全年表现中排名第2(10.7%),而相应的订单数量在所有月份中排名第3(图11)。
图26 放款月份的放款总额明细
图27 放款月份的放款总额分布
4.2 省市地址
省市地址(province)维度的放款总额明细结果如图28所示,可以看出放款总额排名前3的省份名称(广东省、江苏省、四川省),与前文订单数量排名前3的结果保持相同(图24),而对于排名前10的省份,有9个名称是相同的。
图28 省市地址的放款总额明细
5、件均金额维度分析
件均金额分布将选取产品期数(period_num)、年龄区间(age_bin)这2个维度来展开分析,对于其他特征维度与之同理,具体实现过程如图29所示。
图29 件均金额分布实现
5.1 产品期数
产品期数(period_num)维度的件均金额明细结果如图30所示,对应可视化分布如图31所示,可以看出期数为6对应的订单件均金额(6101.17),明显高于9期与12期的件均大小(4280.07、4892.01),这与产品期数长短对应的风险程度有直接关系,一般情况下分期的时间周期越长,隐含的未来违约风险程度越高。
图30 产品期数的件均金额明细
图31 产品期数的件均金额分布
5.2 年龄区间
年龄区间(age_bin)维度的件均金额明细结果如图32所示,可以看出不同年龄区间的件均金额大小与整体件均金额5586(图8)相比,没有很明显的额度差异,可以侧面说明年龄对额度定价的影响程度较小。相对来讲,年龄区间20~25用户群体的件均金额表现最低(5177.78),与其他年龄区间有一定差异。
图32 年龄区间的件均金额明细
6、交叉维度特征分析
以上各细化维度的特征分析,均是通过单一特征来展开描述的,在实际业务场景中,对于部分重要信息维度,往往需要对其进行交叉分析才可以更直观的展示结果。这里我们以年龄区间(age_bin)与产品期数(period_num)为例,通过二者的矩阵交叉,来介绍放款总额分布的数据表现,具体实现过程如图33所示,输出明细结果如图34所示。
图33 年龄与期数的放款总额实现
图34 年龄与期数的放款总额明细
由以上结果可以了解到,在不同的年龄区间(age_bin)与产品期数(period_num)的交叉情况下,年龄区间3135且期数为6、年龄区间2630且期数为6、年龄区间36~40且期数为6,这3种用户群体的放款总额规模位列前3,金额占比分别为25.8%、21.1%、12.6%,三者占比和约为放款金额总量的60%,为产品主要用户群体范围。
此外,对于其他特征维度的交叉组合分析,可以结合实际业务需求来实现,例如订单数量前3省市地址与放款额度的订单数量分布,原理逻辑与上例类似,具体实现过程如图35所示,输出明细结果如图36所示。
图35 省市与额度的订单数量实现
图36 省市与额度的订单数量明细
综合以上内容,我们以信贷产品业务的年终总结为主题,围绕实例样本数据模拟展开详细介绍。结合订单数量、放款金额、件均金额3个业务分析维度,通过放款月份(date_month)、性别类型(gender_type)、婚姻状况(marriage_type)、产品期数(period_num)、年龄区间(age_bin)、放款额度(amount_bin)、省市地址(province)共7个细化特征,对用户群体的数据表现与分布特点完成了多方位描述。同时,在分析总结过程中,先后采用单一特征分布、交叉特征组合的分析思路,对相关信息维度进行梳理与概括,从而实现了信贷产品存量用户数据的特征画像。为了便于大家客户特征画像描述的进一步熟悉与理解,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球查看相关内容。
…
~原创文章