贷后催收评分模型中的数据清洗与数据治理细节介绍

news2024/10/6 21:23:14

数据清洗是一个非常修炼身心的过程,途中你除了需要把所有的数据整业务合到一张宽表里。而这种宽表中所有的字段,是你理解完业务后,细心整理出来的所有适合建模的数据。

今天我们给大家介绍一下,在风控贷后评分模型中,两大在催收模型中最常用到的表:
一个是payment表,
一个是colletion表
(不同公司对这些表的叫法可能都不太一样).

翻译成中文就是还款记录信息表与催收记录信息表。还款记录表主要记录了客户各种还款的数据,不过在我们公司里一般会把时间切片相同的还款记录,整合在一起,还款的金额是同个时间切片内的进还行叠加,最后一次还款的时间来覆盖之前的还款记录。

一.还款记录表(payment)
先介绍还款记录表,还款记录表是一张记录客户,什么时间,通过什么方式还了多少钱的数据表格。
通常这张表不是单独用,需要跟客户的还款计划表一起结合起来使用。比如列出该客户的所有的还款的计划账单,并且跟我们每期的还款记录表拼接,就可以判断,客户每个期数内是否有正常还款。
我了解到有一些公司在做还款记录表的时候,会对某些内容进行修改,从而会影响后续的还款状态的逾期判断。比如一个坏账的客户,会将其坏账之后还款时间标记上。
从而你在判断他在这一期是否逾期的时候,不能单独利用还款时间(value_day)这个字段单独判断,还需要结合还款的金额跟理应还款金额进行作差比较。而且知道有些公司里,在算当前的期的时候,本金跟管理费还是分开来算的,所以在做这个判断的时候,最好是用还款的金额跟理应还款的本金的作差,这样算出来的结果似乎更偏向合理些,因为到了真正需要客户还款的时候,常常会发现将客户的管理费、利息统统豁免,所以用这种方式去计算是最好的。
理清楚需要前面的这些逻辑后,其实你还需要将还款计划表进行转置,关于转置在SAS里是非常容易实现的,使用proc transpose就 可以了,在python里同样使用transpose(x)实现。工具真的不是最重要的,毕竟工具自己买本书或者上网找点资料自己看看也就行了。
思路跟逻辑才是最关键的。只有好的思路,不管策略也好、模型数据也好、政策也好,才能真正把风控落实到实地。
相关的字段太多了,大意即存放了客户还款的记录跟状态,不过这里会涉及到本金跟管理费的知识,还有账期跟账单的知识,单单看这个表还是有些看不懂。

二.催收记录表(colletion)
接着介绍催收数据表。催收记录表,记录着我们催收人员与客户之间数据的联系,有着跟催收的相关的信息,比如PTP、KPTP、BP…关于对这催收的信息不太熟知的童鞋,请戳这里:催收小词典。
关于催收记录表,最后做成催收数据时候,也是需要类似还款记录那样,展开成一期一期的形式。催收记录表一般是长这样:

三.关于外部第三方数据表
目前一些第三方数据源,仍是会从不同的渠道或者时间切片进行组合,比如百融的多头,聚信立的校验数据,极光的用户标签等数据
在这里插入图片描述

但是结合目前贷后的各种数据维度表现来看,外部第三方的数据都没有自家的客户的行为数据好用。毕竟自己的行为数据是最真实的。

四.衍生表
衍生的数据,除了根据时间切片,只要脑洞够大,可以结合业务做成各种各样的数据,下面主要介绍三种最常用也非常好用的变量。
①DPD
这个变量理应不能叫衍生的变量,他也应该叫基础变量。但它其实是应该是由还款计划表和还款记录表一起来共同判断的。只要在dual_day之前,没有还款本金,都是DPD的时间。
所以对于具体的DPD,需要有两个判断的条件,并且涉及的业务表格有3个表。

②Kptp-rate
这个变量主要有反应客户实际还款比例的,计算公式是kptp/ptp。单单用ptp的变量,比较容易造成催收员为了完成业绩故意下P的行为,再上kptp的一起来计算客户的实际还款比例,较好得控制了主观的数据干扰。

③Period_percent
已还期数占比的占比,这个变量整理出来也很有含义,我在做完这个变量的分组后,会发现这个变量的woe值是一个V形的走势。整理好的woe的曲线走势:
在这里插入图片描述

大家可以先思考下,为什么在这个曲线符合真实的业务场景吗?这个变量的曲线最后输出为什么是一个V字行的曲线。

关于风控贷后评分模型的内容,可关注课程《贷后的催收模型与失联修复模型讲解》。
除此之外,在相关的模型细节等内容中,我们更会介绍催收模型与失联模型的内容。

课程部分课件如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
【详细课件,参阅今晚第93期直播课程】

~原创文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/80837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C规范编辑笔记(七)

往期文章: C规范编辑笔记(一) C规范编辑笔记(二) C规范编辑笔记(三) C规范编辑笔记(四) C规范编辑笔记(五) C规范编辑笔记(六) 正文: 大家好,今天来分享一下C语言规范编辑笔记的第七篇,分享这个是希望自己后面忘记了可以去复习…

ADI Blackfin DSP处理器-BF533的开发详解26:扩展IO输入的详细讲解(含源代码)

硬件准备 ADSP-EDU-BF533:BF533开发板 AD-HP530ICE:ADI DSP仿真器 软件准备 Visual DSP软件 硬件链接 硬件设计原理图 功能介绍 ADSP-EDU-BF53x 开发板上扩展接口的 PORT2 和 PORT3 中引出了 6 个扩展 IO 接口输入接口,这些连接到了CPLD…

C. Rooks Defenders Codeforces Round #791 (Div. 2)(树状数组!)

传送门 题意:给你一个的棋盘,然后给你一个t(t只能为1,2,3),对于不同的t产生不同的影响: t1时,给你一个点的坐标x,y,在这个点上生成一辆坦克(保证…

模拟实战从外网打点渗透到内网域控的笔记

信息收集 本次项目是一个是模拟渗透测试 电信诈骗网站,境外人员依赖该网站通过优惠卷诱导受害者进行消费, 诈骗受害人金钱。 前台地址 项目拓扑图 http://ip/user.php?moddo&actlogin&fromtohttp%3A%2F%2F43.143.193.216%2F 后台地址 http…

rabbitmq基础2——rabbitmq二进制安装和docker安装、基础命令

文章目录一、RabbitMQ安装1.1 二进制安装1.2 rabbitmqctl工具1.3 docker安装二、rabbitmq基础命令2.1 多租户与权限类2.1.1 创建虚拟主机2.1.2 查看虚拟主机信息2.1.3 删除虚拟主机2.1.4 给用户授权2.1.5 清除用户权限2.1.6 查看权限2.2 用户管理类2.2.1 创建用户2.2.2 查看用户…

爱心源码动图-Html网页运行

程序示例精选 爱心源码动图-Html网页运行 如需安装运行环境或远程调试,见文章底部微信名片! 前言 Html写的追女生神器-爱心动图,代码整洁,规则,易读,对学习与使用Html有较好的帮助。 文章目录 一、所需工具…

Redis高可用之主从复制、哨兵、cluster集群

Redis高可用之主从复制、哨兵、cluster集群Redis 高可用什么是高可用Redis的高可用技术Redis主从复制主从复制的作用主从复制流程搭建Redis主从复制所有节点安装Redis修改master节点的配置文件修改slave节点的配置文件验证主从效果Redis哨兵模式哨兵模式的作用哨兵结构故障转移…

Redis集群模式

目录 前言 一、集群的作用 二、集群模式的数据分片 三、集群模式的主从复制模型 四、Redis集群模式 Redis集群部署 开启群集功能 修改所有集群服务的配置文件端口,使其不一致 启动集群 集群测试 前言 1、集群,即 Redis Cluster, …

模型效果差?我建议你掌握这些机器学习模型的超参数优化方法

模型优化是机器学习算法实现中最困难的挑战之一。机器学习和深度学习理论的所有分支都致力于模型的优化。 机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数。超参数与一般模型参数不同,超参数是在训练前提前设置的。举例来说&a…

CKA考试Tips

前言 今年黑五的双证套餐的折扣比双11时还便宜个200多,不到2000,应该是史低吧,反正比前年低。即使考试前看了各种避坑技巧,虽然通过了但是结果还是因为各种问题导致时间不够没做完扣分,于是下面总结一下参加CKA/CKS考试时候的技巧。 报名及考…

[基因遗传算法]进阶之四:实践VRPTW

参考资料: 《旅行商问题(TSP)、车辆路径问题(VRP,MDVRP,VRPTW)模型介绍》 本文对《基于GA算法解决VRPTW》的分析和思考.具体的代码可以参考 《Python实现(MD)VRPTW常见求解算法——遗传算法(GA)》 . 文章目录壹、VRPTW一. 定义类二、数据读取三. 构造初…

JVM调优手段

JDK提供命令工具 jstat 是用于监视虚拟机各种运行状态信息的命令行工具。它可以显示本地或者远程虚拟机进程中的类装载、内存、垃圾收集、JIT 编译等运行数据,在没有 GUI图形界面,只提供了纯文本控制台环境的服务器上,它将是运行期定位虚拟…

博球一看,CSDN与你共观世界杯

2022卡塔尔世界杯不知不觉已接近尾声,不仅让人感叹,乌拉圭,巴西,葡萄牙都已淘汰,四强诞生分别是阿根廷,法国,摩洛哥,克罗地亚,非常期待梅西和魔笛的对决,也希…

电子学会2020年12月青少年软件编程(图形化)等级考试试卷(三级)答案解析

目录 一、单选题(共25题,每题2分,共50分) 二、判断题(共10题,每题2分,共20分) 三、编程题【该题由测评师线下评分】(共3题,共30分) 青少年软件…

【云计算与大数据技术】虚拟化简介及虚拟化的分类讲解(图文解释 超详细)

一、虚拟化简介 1:什么是虚拟化 虚拟化是指计算机元件在虚拟的基础上而不是在真实的、独立的物理硬件基础上运行。这种以优化资源、简化软件的重新配置过程为目的的解决方案就是虚拟化技术 虚拟化架构就是在一个物理硬件机器上同时运行多个不同应用的独立的虚拟系…

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现|视频

Glmnet是一个通过惩罚最大似然关系拟合广义线性模型的软件包。正则化路径是针对正则化参数λ的值网格处的lasso或Elastic Net(弹性网络)惩罚值计算的。 最近我们被客户要求撰写关于LASSO的研究报告,包括一些图形和统计输出。该算法非常快&am…

电子学会2020年12月青少年软件编程(图形化)等级考试试卷(四级)答案解析

目录 一、单选题(共15题,每题2分,共30分) 二、判断题(共10题,每题2分,共20分) 三、编程题【该题由测评师线下评分】(共4题,共50分) 青少年软件…

51单片机——LED 点阵点亮一个点,小白详解

LED点阵介绍: LED点阵是由发光二极管排列组成的显示器件,在我们生活中的电器中随处可见,被广泛用于汽车报站器,广告屏等。 通常用用较多的是8*8点阵,然后使用多个8*8点阵组成不同分辨率的LED点阵显示屏,比如…

kubernetes--kube-proxy组件深入理解

文章目录kube-proxy的工作原理netfilter的运行机制ipvs和iptables有什么区别?iptables在网络栈的hook点更多,而ipvs的hook点很少iptables的hook点ipvs的hook点如何切换?ipvs安装为何推荐ipvs?为什么iptables或者ipvs在每个节点上都…

面试官:你会几种分布式 ID 生成方案???

1. 为什么需要分布式 ID 对于单体系统来说,主键 ID 常用主键自动的方式进行设置。这种 ID 生成方法在单体项目是可行的,但是对于分布式系统,分库分表之后就不适应了。比如订单表数据量太大了,分成了多个库,如果还采用…