【学习笔记】互联网金融:芝麻信用分的建模过程

news2024/9/25 21:23:05

学习资料: 数据分析学习随记 | 互联网金融行业2C授信模型(芝麻信用)

1. 背景

互联网金融的本质是风控

1.1 数据分析师的角色

数据分析师在金融行业基本上有两种角色:

1.1.1 数据建模师

偏算法,但要很懂业务。要求对算法的理解较深,相对来说对行业经验要求不是很高。
与纯互联网行业对比,金融行业的数据建模师的价值更容易得到体现,而且相对更有趣。

  • 工作内容:
    • 数据源
      这是和其他数据分析师差别最大的地方。 互联网金融很多时候需要基于大数据去规避风险,数据源越多越好。因此数据建模师需要和其他公司进行数据合作,或者数据采购。
    • 信用评分模型
      模型监控、维护、优化迭代
    • 其他数据挖掘建模
  • 能力要求:
    • 数据源在前期决定了模型的效果,要具备良好的沟通能力和快速反馈的能力。
    • 金融行业本身比较成熟,比模型更加重要的是分析师自身的想法和验证。
    • 在前期重点是围绕数据源和数据处理,模型可以用逻辑回归、决策树、GBDT、随机森林、神经网络等。

1.1.2 分控分析师

除了一定的模型理解能里,还需要大量的行业和法律法规经验。

1.2 产品对象

互联网金融与其他行业不太一样,互联网金融在产品对象上分为to B和to C,都是依赖央行信用报告。

  • to B:对企业整体的信用进行评估,做整体授信
  • to C:对个人整体的信用进行评估,得到个人信用分

2. 授信模型

以芝麻信用分为例,

  • 能够很好地判断一个人的信用到底好不好
  • 另一个潜在价值是可以结合人的行为偏好来做更准确的推荐。

芝麻信用分是以下面五个维度综合评估而来的:
在这里插入图片描述

  1. 身份特质-- 稳定性
    学历的高低影响了收入的多少,这是长时间改不了的特质。
  2. 履约能力-- 兜底性
    有无房车,个人资产能力的证明,消费后按时还款的能力。
  3. 信用历史 – 历史性
    信用卡有无逾期,历史行为最直接的信用体现。
  4. 人脉关系 – 稳定性验证 + 弱价值性
    支付宝好友的信用分是不是都很高,是否土豪,一个人的交际圈也代表着一定的偿还能力。
  5. 行为偏好-- 真正价值
    喜欢买价格高的还是买价格低的,这个部分很重要,表示人本身的当前信息,对产品后续决策有非常大的价值。

3. 模型落地

授信模型的建立过程跟数据分析标准化流程非常像,模型最终的评估指标是坏账率

3.1 数据源

每个维度用了哪些数据字段,这些就是数据源。

数据变量:

  • 原始变量:直接存储在数据库中的最基础变量,比如每天的交易额。
  • 衍生变量:因为金融的本质是风险,所以都要对原始变量进行加工转化,得到衍生变量。

一般有3种方式对原始变量进行扩充:

  • 时间维度衍生:
    • 最近一个月交易额
    • 最近三个月交易额
  • 函数衍生:
    • 最大交易额
    • 最小交易额
    • 交易额方差比例
  • 比例衍生:
    • 最近一个月交易额除以最近三个月交易额

选择变量时,基于RFM原则:

  • R(Recency,最近,最近一次消费时间间隔):指用户最近一次消费距离现在多长时间了。
  • F(Frequency,频次,一段时间内的消费频次):指用户一段时间内消费了多少次。
  • M(Monetary,,一段时间内的消费金额):指用户一段时间内消费的金额。

3.2 数据处理 => 数值化

数据处理、数据建模都是为业务服务。真实工作中,数据据处理和数据建模会慢慢迭代、优化。
所以在前期的数据处理不会很复杂,

前期的数据处理一般分为三种:

  1. 数值型和字符串型字段的缺失性和合理性检验,剔除无效字段。
    50%以上即可去掉。

  2. 数值型字段的相关性验证
    因为在前期,所有的字段都会拿出来,有很多的变量相关性非常强,但这个对于模型的训练没有帮助,因此把相关性强的先过滤掉。 【相关性规律待学】

  3. 对字符串型字段的离散化处理
    一般对字符型字段采用的是专家打分法,将字符串型变量转化成数值。

相关性过滤:一般0.7以上是高度相关性,所以在后面建模的时候,只保留一个变量即可,其他3个相关性高于0.7的变量先不要放在模型训练里。
如下图,最近1年母婴消费金额与其他三个变量均有很高的相关性,因此在后续建模的时候先保留母婴消费金额.
在这里插入图片描述
专家打分法:是按照常识理解直接分段取值。
在模型前期,只要大的逻辑没有问题即可。比如芝麻信用分评估中的身份特质,学历是小学还是博士,这样的字段不是数字型字段而实字符串型字段。然后设定小学学历信用分段是0~20, 博士学历信用分段90~100,将字符型变量转化成数值。
在这里插入图片描述

3.3 数据标准化

虽然所有变量都以数值化,但在量级和量刚上相差很大。
【?】如交易额和交易次数,这就没有可以性,所以要对所有的字段进行标准化。

标准化的方法很多,选择合适的就行,这对后面的模型效果没有影响

  • MAX-MIN
  • Z-score

【?】数据标准化后,所有变量的取值区间都会在0~1范围,接下来就可以进行数据建模了。

3.4 数据建模

在建模之前,一定要把业务目标理清,这样才能知道能用什么模型。

芝麻信用分有5个维度,5个维度在不同时期的权重也不一样,所以每个维度都要单独建模。
建模前的思考举例:

  • 业务目标:根据用户在5个维度的综合芝麻分,来给用户提供其他额外服务,比如花呗、借呗和免押金,同时保证用户不违约。
  • 建模目标:根据用户的数据,算出用户违约的概率。而这个概率也可以转化为用户的分数。
  • 模型选择:基于建模目标,选择逻辑回归模型比较合适。一是简单,二是非线性。
    在这里插入图片描述
    以历史信用为例,假设该模块包含的字段有最近一个月主动查询金融机构信用次数x1、最近一个月徐换代总额x2、最近一个月逾期总额x3,那么其违约概率就为:(x1、2、3为3个数值)
    在这里插入图片描述
    P值为用户违约的概率,a、b、c为拟合系数。

举例:A用户:身份特质、履约能力、信用历史、人脉关系、行为偏好分别算出的概率是0.1、0.2、0.3、0.4、0.5 。根据当前产品所处阶段,觉得历史信用和履约能力两个模块最重要,那么这两个模块的影响权重就是0.35,其他都是0.1。计算步骤:

  • 那么小A 的违约概率就是: P = 0.10.1+0.350.2+0.350.3+0.10.4+0.1*0.5=275
  • 分数公式:score=(1-P)*A+B,区间为[300,900],可以算出来A=600,B=300
  • 所以A的芝麻综合分=0.725*600+300=735。

模型离线效果指标: 机器学习

  • 混淆矩阵:查准率和查全率
    在这里插入图片描述
    • 混淆矩阵的理解:

      • 100:本身是未还款,模型预测后也是未还款 - 准确
      • 400:本身是已还款,模型预测后也是已还款 - 准确
      • 20:本身是已还款,模型预测后是未还款 - 不准确
      • 80:本身是未还款,模型预测后是已还款 - 不准确
    • 查准率: 模型准确度。

      • 预测准确准确的对角线100+400 = 500
      • 所有样本量100+20+80+400 = 600
      • 查准率 = 500 / 600 = 83%
    • 查全率:预测准确的样本,在选择样本中的占比。
      金融模型的主要目标是还款,所以只需看预测成功的未还款人数,在实际的总未还款人数中的占比。

      • 模型预测准确的未还款人是100人
      • 本身未还款100 + 80 = 180人
      • 查全率是100/180 = 56%
  • ROC曲线:根据混淆矩阵做出的可视化分析,区分模型是否能较好把好坏样本分开的一个图,一般都是取ROC下面的面积AUC,来衡量模型效果,越大越好,一般至少0.6以上。

离线模型看这两个参数就够了,这块本身有点难理解,特别是ROC曲线不太好举例,如果你实在不理解参数意义,那么记住也可以,因为真实工作中,最重要的还是坏账率这个评估指标。

在产品初期,因为模型的变量太多,所以模型的迭代速度都非常快,基本上每个月都要跑一次分数,这个时候肯会出现某个用户的分数奇高,这都是正常的,而这些都需要不断调整权重和系数,慢慢优化才行,不过最重要的还是落地效果,就是用了这个模型之后坏账率怎么样,这就是模型落地了 。

3.5 模型落地

模型落地举例

  • 落地前:
    如根据芝麻信用分就可以申请招联金融信用额度,那么这就涉及到两个公司的产品合作了。金融行业的合作都是非常小心的,所以在正式合作前:

    • ①招联金融会提供一批样本给芝麻,芝麻这边数据建模师根据模型给出这批用户的违约概率;
    • ②招联金融根据芝麻给出的用户违约概率,算模型的准确度;
    • ③如果模型准确度还可以,双方才会正式展开合作(用户群覆盖度和模型准确度)
  • 落地中:
    正式落地时,招联在给每个用户评估信用时,实际上芝麻信用分只是一个参考维度而已,一般都是这样:

    • ①机器调用该用户的央行征信报告评估值X,这个是最重要的;
    • ②借口调用用户的芝麻信用分Y;
    • ③该用户在招联的信用评估情况Z;

基于X,Y,Z,内部在根据专家规则法出一套授权方案(很灵活),到这一步,基本上模型就正式使用了。

3.6 模型优化

  • 落地后:
    前期一般是每一周,招联金融都会和芝麻这边对一次坏账情况,只有到这个时候,模型的参数调整才是最有意义的,这个时候也是最考验数据建模师的时候,

调参方法:

  • ①先找出是因为某个子模型引起还是所有模型引起;
  • ②如果是子模型引起,直接调整该模型的参数即可,如果是整体模型都有问题,那就要重新进行数据处理了,如WOE分组,更换衍生变量,字符型字段重新打分等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/367257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电子标签播种墙方案

一、PTL优势: 二、系统构架: v1.2基站软件管理系统仓库标签v1.4仓库标签三、基站特点: 接收PC下达的操作指令,解析后再通过RF发送给电子标签 无线通讯距离30m无线通信速率200/50kbps网络通信速率10/100 Mbps自定义双向数据通讯协…

接口测试很难?3分钟带你入门接口自动化测试

1、什么是接口? 接口是连接前台和后台的桥梁,前台通过接口调用后端已完成的功能,而无需关注内部的实现细节。借助于接口,可以实现前后台分离,各自完成开发工作后,进行联调,提高工作效率。 2、接…

开学季电容笔怎么选?学生党高性价比电容笔推荐

或许许多人会认为苹果Pencil是无可取代的,但是我认为这压感取决于我们的预算和需求。要是我们对于绘画没有过高的要求的话,其实可以选择使用平替电容笔,而没必要入手apple pencil。为了让你对电容笔有更多的认识,我接下来推荐几款…

Flutter第三方插件objectbox的使用

Flutter基础 demo地址 参考地址 文章目录Flutter基础前言一、demo效果图二、objectbox是什么?三、objectbox的使用1.在pubspec.yaml文件中添加2.执行flutter pub get命令3.创建数据库模型4.执行flutter pub run build_runner build 命令5.如果报错则执行flutter pu…

Renderdoc中一个daraw的API调用以及其作用

分析renderdoc中一个draw调用的api接口,如下是一个draw调用的渲染api的过程,下面来分析一下这几个函数的作用。 PSSetShaderResources、VSSetShader、PSSetShader这三个方法在renderdoc调用过程使用的方法,这三个方法的做法分别如下&#xff…

【华为OD机试模拟题】用 C++ 实现 - 日志采集系统(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

NMS详解

(类别,坐标1,坐标2,坐标3,坐标4,类别分数) step1:对最后一列分数进行排序 ,可以看到类别就被打乱了 step2: 弹出得到selected_bboxes作为基准,减少bbox_list。其实就是准…

寻路库recastnavigation改造

本文是介绍对寻路库recastnavigation 改造,使得使用更加友好。 Git仓库: https://github.com/jiangguilong2000/recastnavigation 首先,我们要做一些前置操作 SDL: 开放源代码的跨平台多媒体开发库 Premake:量跨平台构建系统 环境: VS 2019…

国内知名插画培训机构有哪些,学习插画怎么选培训班

国内知名插画培训机构有哪些?给大家梳理了国内5家专业的插画师培训班,最新无大插画班排行榜,各有优势和特色! 一:国内知名插画培训机构排名 1、轻微课(五颗星) 主打课程有日系插画、游戏原画…

Linux 计划任务讲解

目录 计划任务 一次性计划任务 长期性计划任务 计划任务 管理员可以编辑自己的和普通用户的计划任务 普通用户只可以编辑自己的计划任务 计划任务根据执行方式分为一次性计划任务、长期性计划任务 一次性计划任务 此计划只执行一次,执行后或就不会再执行了 通…

项目管理之三点估算(正态分布)

三点估算法主要来自于项目的计划评审技术 PERT,能评估时间与概率的关系。 三点估算法不仅可以用于定量风险分析,也可用于进度管理中活动历时估算。先记住几个概念:最乐观时间TO:完成该工作最少需要的时间;最悲观时间TP…

R统计绘图-PCA详解1(princomp/principal/prcomp/rda等)

此文为《精通机器学习:基于R》的学习笔记,书中第九章详细介绍了无监督学习-主成分分析(PCA)的分析过程和结果解读。 PCA可以对相关变量进行归类,从而降低数据维度,提高对数据的理解。分析的主要目的一般是:1)识别数据…

CVPR2022 | ABINet+: 似人阅读: 场景文本识别的自主、双向和迭代语言建模

论文标题:ABINet:Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition代码:https://github.com/FangShancheng/ABINet链接:https://arxiv.org/abs/2103.06495一、AbstractH…

Linux 安装php环境

1.下载php wget http://am1.php.net/distributions/php-7.3.2.tar.gz 2.解压 tar -zxvf php-7.3.2.tar.gz 3.安装扩展 接下来进行参数配置,配置前如果没有libxml2和libxml2-devel会报错,所以应该更新libxml2并安装libxml2-devel,使用在线…

C++回顾(一)——从C到C++

前言 在学习了C语言的基础上&#xff0c;C到底和C有什么区别呢&#xff1f; 1.1 第一个C程序 #include <iostream>// 使用名为std的命名空间 using namespace std;int main() {// printf ("hello world\n");// cout 标准输出 往屏幕打印内容 相当于C语言的…

ELK日志分析--Kibana

Kibana 概述 部署安装浏览页面并使用 1.Kibana 概述 Kibana-是进入Elastic的窗口使用Kibana&#xff0c;可以 1 搜索&#xff0c;观察和保护。 从发现文档到分析日志再到发现安全漏洞&#xff0c;Kibana是您访问这些功能及其他功能的门户。 2 可视化和分析您的数据。 搜索隐藏的…

github ssh密钥配置,克隆远程仓库

GitHub的SSH配置 在往github上push项目的时候&#xff0c;如果走https的方式&#xff0c;每次都需要输入账号密码&#xff0c;非常麻烦。而采用ssh的方式&#xff0c;就不再需要输入&#xff0c;只需要在github自己账号下配置一个ssh key即可&#xff01; 很多朋友在用github管…

kkfileview在预览word文档中文乱码

因为liunx服务器没有相关中文字体 1.下载中文字体包 http://kkfileview.keking.cn/fonts.zip 2.上传服务器至目录/usr/share/fonts 解压 unzip fonts.zip 3.执行命令 mkfontscale mkfontdir fc-cache 如果报错命令没有找到&#xff0c;则安装对应命令&#xff0c;例如 yum in…

Mikrotik Ros安全加固

基本概述 Mikrotik系列路由器也成RouterOS软路由&#xff0c;RouterOS是基于Linux内核的网络操作系统&#xff0c;其预装在MikroTik生产的路由器、无线设备以及RouterBOARD上。同时&#xff0c;它也可以安装在x86平台的个人电脑上&#xff0c;用于将电脑转化为路由器&#xff…

【01】从零开始学Python—数据分析与挖掘概述

马云曾说“中国正迎来从IT时代到DT时代的变革”&#xff0c;DT就是大数据时代。数据已成为企业的核心资产和宝贵资源&#xff0c;企业愈加重视和善加利用数据分析与挖掘技术。 1.1什么是数据分析与挖掘 数据分析和挖掘都是基于搜集来的数据&#xff0c;应用数学、统计、计算机…