贷后催收评分模型中的数据清洗与数据治理细节介绍

news2025/4/3 21:58:46

数据清洗是一个非常修炼身心的过程，途中你除了需要把所有的数据整业务合到一张宽表里。而这种宽表中所有的字段，是你理解完业务后，细心整理出来的所有适合建模的数据。

今天我们给大家介绍一下，在风控贷后评分模型中，两大在催收模型中最常用到的表：
一个是payment表,
一个是colletion表
（不同公司对这些表的叫法可能都不太一样）.

翻译成中文就是还款记录信息表与催收记录信息表。还款记录表主要记录了客户各种还款的数据，不过在我们公司里一般会把时间切片相同的还款记录，整合在一起，还款的金额是同个时间切片内的进还行叠加，最后一次还款的时间来覆盖之前的还款记录。

一.还款记录表（payment）
先介绍还款记录表，还款记录表是一张记录客户，什么时间，通过什么方式还了多少钱的数据表格。
通常这张表不是单独用，需要跟客户的还款计划表一起结合起来使用。比如列出该客户的所有的还款的计划账单，并且跟我们每期的还款记录表拼接，就可以判断，客户每个期数内是否有正常还款。
我了解到有一些公司在做还款记录表的时候，会对某些内容进行修改，从而会影响后续的还款状态的逾期判断。比如一个坏账的客户，会将其坏账之后还款时间标记上。
从而你在判断他在这一期是否逾期的时候，不能单独利用还款时间（value_day）这个字段单独判断，还需要结合还款的金额跟理应还款金额进行作差比较。而且知道有些公司里，在算当前的期的时候，本金跟管理费还是分开来算的，所以在做这个判断的时候，最好是用还款的金额跟理应还款的本金的作差，这样算出来的结果似乎更偏向合理些，因为到了真正需要客户还款的时候，常常会发现将客户的管理费、利息统统豁免，所以用这种方式去计算是最好的。
理清楚需要前面的这些逻辑后，其实你还需要将还款计划表进行转置，关于转置在SAS里是非常容易实现的，使用proc transpose就可以了，在python里同样使用transpose(x)实现。工具真的不是最重要的，毕竟工具自己买本书或者上网找点资料自己看看也就行了。
思路跟逻辑才是最关键的。只有好的思路，不管策略也好、模型数据也好、政策也好，才能真正把风控落实到实地。
相关的字段太多了，大意即存放了客户还款的记录跟状态，不过这里会涉及到本金跟管理费的知识，还有账期跟账单的知识，单单看这个表还是有些看不懂。

二.催收记录表（colletion）
接着介绍催收数据表。催收记录表，记录着我们催收人员与客户之间数据的联系，有着跟催收的相关的信息，比如PTP、KPTP、BP…关于对这催收的信息不太熟知的童鞋，请戳这里:催收小词典。
关于催收记录表，最后做成催收数据时候，也是需要类似还款记录那样，展开成一期一期的形式。催收记录表一般是长这样：

三.关于外部第三方数据表
目前一些第三方数据源，仍是会从不同的渠道或者时间切片进行组合，比如百融的多头，聚信立的校验数据，极光的用户标签等数据
在这里插入图片描述

但是结合目前贷后的各种数据维度表现来看，外部第三方的数据都没有自家的客户的行为数据好用。毕竟自己的行为数据是最真实的。

四.衍生表
衍生的数据，除了根据时间切片，只要脑洞够大，可以结合业务做成各种各样的数据，下面主要介绍三种最常用也非常好用的变量。
①DPD
这个变量理应不能叫衍生的变量，他也应该叫基础变量。但它其实是应该是由还款计划表和还款记录表一起来共同判断的。只要在dual_day之前，没有还款本金，都是DPD的时间。
所以对于具体的DPD，需要有两个判断的条件，并且涉及的业务表格有3个表。

②Kptp-rate
这个变量主要有反应客户实际还款比例的，计算公式是kptp/ptp。单单用ptp的变量，比较容易造成催收员为了完成业绩故意下P的行为，再上kptp的一起来计算客户的实际还款比例，较好得控制了主观的数据干扰。

③Period_percent
已还期数占比的占比，这个变量整理出来也很有含义，我在做完这个变量的分组后，会发现这个变量的woe值是一个V形的走势。整理好的woe的曲线走势：
在这里插入图片描述