数据清洗是一个非常修炼身心的过程,途中你除了需要把所有的数据整业务合到一张宽表里。而这种宽表中所有的字段,是你理解完业务后,细心整理出来的所有适合建模的数据。
今天我们给大家介绍一下,在风控贷后评分模型中,两大在催收模型中最常用到的表:
一个是payment表,
一个是colletion表
(不同公司对这些表的叫法可能都不太一样).
翻译成中文就是还款记录信息表与催收记录信息表。还款记录表主要记录了客户各种还款的数据,不过在我们公司里一般会把时间切片相同的还款记录,整合在一起,还款的金额是同个时间切片内的进还行叠加,最后一次还款的时间来覆盖之前的还款记录。
一.还款记录表(payment)
先介绍还款记录表,还款记录表是一张记录客户,什么时间,通过什么方式还了多少钱的数据表格。
通常这张表不是单独用,需要跟客户的还款计划表一起结合起来使用。比如列出该客户的所有的还款的计划账单,并且跟我们每期的还款记录表拼接,就可以判断,客户每个期数内是否有正常还款。
我了解到有一些公司在做还款记录表的时候,会对某些内容进行修改,从而会影响后续的还款状态的逾期判断。比如一个坏账的客户,会将其坏账之后还款时间标记上。
从而你在判断他在这一期是否逾期的时候,不能单独利用还款时间(value_day)这个字段单独判断,还需要结合还款的金额跟理应还款金额进行作差比较。而且知道有些公司里,在算当前的期的时候,本金跟管理费还是分开来算的,所以在做这个判断的时候,最好是用还款的金额跟理应还款的本金的作差,这样算出来的结果似乎更偏向合理些,因为到了真正需要客户还款的时候,常常会发现将客户的管理费、利息统统豁免,所以用这种方式去计算是最好的。
理清楚需要前面的这些逻辑后,其实你还需要将还款计划表进行转置,关于转置在SAS里是非常容易实现的,使用proc transpose就 可以了,在python里同样使用transpose(x)实现。工具真的不是最重要的,毕竟工具自己买本书或者上网找点资料自己看看也就行了。
思路跟逻辑才是最关键的。只有好的思路,不管策略也好、模型数据也好、政策也好,才能真正把风控落实到实地。
相关的字段太多了,大意即存放了客户还款的记录跟状态,不过这里会涉及到本金跟管理费的知识,还有账期跟账单的知识,单单看这个表还是有些看不懂。
二.催收记录表(colletion)
接着介绍催收数据表。催收记录表,记录着我们催收人员与客户之间数据的联系,有着跟催收的相关的信息,比如PTP、KPTP、BP…关于对这催收的信息不太熟知的童鞋,请戳这里:催收小词典。
关于催收记录表,最后做成催收数据时候,也是需要类似还款记录那样,展开成一期一期的形式。催收记录表一般是长这样:
三.关于外部第三方数据表
目前一些第三方数据源,仍是会从不同的渠道或者时间切片进行组合,比如百融的多头,聚信立的校验数据,极光的用户标签等数据
但是结合目前贷后的各种数据维度表现来看,外部第三方的数据都没有自家的客户的行为数据好用。毕竟自己的行为数据是最真实的。
四.衍生表
衍生的数据,除了根据时间切片,只要脑洞够大,可以结合业务做成各种各样的数据,下面主要介绍三种最常用也非常好用的变量。
①DPD
这个变量理应不能叫衍生的变量,他也应该叫基础变量。但它其实是应该是由还款计划表和还款记录表一起来共同判断的。只要在dual_day之前,没有还款本金,都是DPD的时间。
所以对于具体的DPD,需要有两个判断的条件,并且涉及的业务表格有3个表。
②Kptp-rate
这个变量主要有反应客户实际还款比例的,计算公式是kptp/ptp。单单用ptp的变量,比较容易造成催收员为了完成业绩故意下P的行为,再上kptp的一起来计算客户的实际还款比例,较好得控制了主观的数据干扰。
③Period_percent
已还期数占比的占比,这个变量整理出来也很有含义,我在做完这个变量的分组后,会发现这个变量的woe值是一个V形的走势。整理好的woe的曲线走势:
大家可以先思考下,为什么在这个曲线符合真实的业务场景吗?这个变量的曲线最后输出为什么是一个V字行的曲线。
关于风控贷后评分模型的内容,可关注课程《贷后的催收模型与失联修复模型讲解》。
除此之外,在相关的模型细节等内容中,我们更会介绍催收模型与失联模型的内容。
课程部分课件如下:
【详细课件,参阅今晚第93期直播课程】
…
~原创文章