【40分钟速成智能风控10】风控大数据体系2

news2024/11/25 16:43:14

目录

​编辑

特征工程方法

统计量

离散化

时间周期趋势

交叉项

隐性特征

用户画像


特征工程方法

在模型圈内有这么一句俗话,“特征决定了模型的上限,而算法只是逼近这个上限”,由此可见特征工程在风控建模中的重要程度。特征工程的本质是基于原始数据的信息提炼,风控场景中的很多数据源,单独来看可能和风险表现关联性并不强,但是加工成特征后,却会与我们想要预测的目标产生紧密的联系。特征工程的方法有很多,有效的风控特征是建模人员通过历史经验和长期探索积累而来的,也是一家互联网金融公司最核心的数据财富。以下是笔者总结的一些在智能风控模型中常见的特征工程方法。

统计量

统计量是特征工程中最常用到的一类方法,是对于原始数据的浅层加工。风控场景中原始采集到的多为明细数据,通过统计量的方式,可以快速地汇总并刻画出数据分布的规律,在短时间内构建上千维特征。常见的统计量包括总和、最大值、平均值、比例、排名、最早、最近等,可以从金额、频率、天数、类型等多个角度出发,结合时间窗口的因素去尝试构建。以征信报告中24个月的还款明细为例,可以有历史/当前逾期本金、历史/近18个月/近12个月/近6个月逾期次数、历史/当前最大逾期天数、最早/最近逾期距今时长、信用卡/贷款逾期本金占比等多个特征,这些特征从各个角度措述了借款人的信用历史状况。

离散化

大多数的原始数据都是数值型,可以加工成统计量,但也有少部分的数据本身是字符型,或者加工成统计量有违实际含义,此时就需要用离散化的方式来处理。离散化是将连续值转化为离散值的过程,常见于基本信息的加工中。离散化根据原始数据的特性又可以分为有序和无序两种。例如年龄,本身是存在排序性的,因此离散化的时候可以将20~25区间内的数据映射为1,25~30区间内的数据映射为2,依次递增,保持年龄的单调性;而对于职业,由于不同职业之间无法进行排序,则需要通过独热编码(One-Hot Encoding)的方式加工成多个0-1特征,例如是否为白领、是否为蓝领、是否为商旅人士等。对比两种离散化方式,后者独热编码会导致特征矩阵的稀疏性,并且会损失一些数据本身的信息,因此可以通过业务经验或者计算WOE的方式,优先考虑将这些字段映射成有序的离散化特征。另外,离散化后的特征具有更好的稳定性,因此也经常被用在风控建模中,用来提高模型的泛化能力。

时间周期趋势

对于积累时间较长的原始数据,还可以加工一些时间周期类特征,包括标准差、变异系数、同比、环比、新增数、连续增长、连续下降等,考察借款人的变化趋势。这类特征通常在风控场景下具有较好的应用价值,因为这些长短期特征能够天然地刻画出客户中长期的信用风险和短期内的欺诈风险。以消费金额为例,从时间周期的角度,可以加工成近6个月标准差/变异系数/新增场景数/连续增长月份数/连续下降月份数、本月同比/环比等,描述了借款人长短期内消费能力的波动情况和方向。

交叉项

单一特征能够提取的信息总是有限的,因此还需要引人交叉项特征,综合考虑两个或者多个原始特征的影响。生成交叉项也有两种思路,基于经验和基于模型。基于经验的方法主要是从业务理解的角度出发,人为地构建一些交叉项组合,放到风控模型中去尝试。交叉项的两个原始特征最好是相关性不高的,例如近6个月的消费总金额和消费金额稳定性,这样构建的交叉项才能够在已有的原始特征之上带来增益。基于模型的方法则是利用树类模型学习目标函数生成大量叶子节点特征,比较经典的方案是Facebook在2014年提出的GBDT+LR模型。与人工经验方案相比,模型方案的优势在于省时省力,利用树类模型的特性自动提取比较重要的交叉项组合;缺点是这些交叉项是基于特定目标学习生成的,对于其他目标通用性不强,并且与离散化一样,存在特征矩阵过于稀疏可能导致模型过拟合的问题,需要利用特征压缩或者正则化的方法进一步处理。

隐性特征

除去上面介绍的这些显性特征,还有一类没有具体业务含义的隐性特征,是通过深度模型挖掘得来的,是对客户商品购买、出行地点、点击行为的高维向量表示,已经在许多头部互联网金融机构的风控模型中得到了效果验证。这里介绍隐性特征挖掘中常用到的一类方Embedding. Embedding 最早在2013年被Google应用于word2vec 模型中,本意是训练文本中的词向量,基于上下文找出相似的词。其中,w(t)是输入的词,w(1--2)、W(1-1)、W(1+1)、W(1+2)是上下文词的概率,中间的隐藏层就是我们想要的w(t)的向量表示。通过这种方式可以对文本中所有的词进行向量化。这种思想也被借鉴到风控场景中的特征挖掘,不同的是这里的文本变成了客户的行为数据,而每个词对应了每一类行为,利用Embedding的思想将行为数据向量化,再输入深度学习模型中与其他显性特征一同训练。

用户画像

最后还有一类特征,主要基于风控建模人员通过数据分析或者专家经验给出逻辑加工而成,这里统称为用户画像。画像类特征是风控建模场景中较为常见的一类特征,是对金融机构内外数据源的高度浓缩,既可以加入风控模型中增强可解释性,也可以在满足合规要求后对外输出。每个用户画像背后都有一套复杂的逻辑,例如有房指数,有过公积金贷款和房贷记录的客户,有房指数为1;居住地和身份证一致的本地人,或者居住地稳定的高净值用户,大概率有房,有房指数为0.9;对于剩余客户,可以利用基本信息、消费能力、资产状况、地理位置等数据源构建预测模型,输出0~1之间的概率值;最终利用准召曲线来确定有房人群阈值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1589519.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

调用R语言并提供Rest接口

文章目录 一、安装R语言环境二、qdiabetes三、安装Python环境四、提供Rest接口 一、安装R语言环境 安装 sudo apt-get update sudo apt-get install r-base/home/rscript/script.R # script.R cat("Hello, World!\n")测试 Rscript /home/rscript/script.R二、qdi…

如何开辟动态二维数组(C语言)

1. 开辟动态二维数组 C语言标准库中并没有可以直接开辟动态二维数组的函数,但我们可以通过动态一维数组来模拟动态二维数组。 二维数组其实可以看作是一个存着"DataType []"类型数据的一维数组,也就是存放着一维数组地址的一维数组。 所以&…

基于centos7安装docker+k8s+KubeSphere

实验环境:(每个服务器推荐内存为8G) 服务器 ip地址 主机名 centos7 192.168.80.1…

面试: 单例模式

目录 一、饿汉单例(实现Serializable) 1、破坏单例的三种情况 (1)反射破坏单例 (2)反序列化破坏单例 (3)Unsafe破坏单例 2、饿汉单例(利用枚举实现) 二…

44.基于SpringBoot + Vue实现的前后端分离-汽车租赁管理系统(项目 + 论文PPT)

项目介绍 本站是一个B/S模式系统,采用SpringBoot Vue框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得基于SpringBoot Vue技术的汽车租赁管理系统设计与实现管理工作…

吴恩达机器学习:均值聚类法(K-means Clustering)

在本练习中,您将实现K-means算法并将其用于图像压缩。 您将从一个样本数据集开始,该数据集将帮助您直观地了解K-means算法的工作原理。之后,您将使用K-means算法进行图像压缩,将图像中出现的颜色数量减少到该图像中最常见的颜色。…

基于Springboot的网上商品订单转手系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的网上商品订单转手系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

Excel---一个工作簿中的多个sheet合并成一个PDF

0 Preface/Foreword 1 操作方法 1.1 方法一 文件》 导出 》创建PDF/XPS 》 选项 》发布内容 》“整个工作簿” 1.2 方法二 文件》 打印》 打印机选项中,选择一种PDF阅读器 》设置选项中,选择打印整个工作簿。

二维数组中的查找

😀前言 在解决问题时,我们经常会遇到需要在二维数组中查找特定元素的情况。然而,如果直接使用暴力搜索,即遍历整个数组寻找目标元素,可能会导致时间复杂度较高,效率不高。然而,对于给定的二维数…

代码随想录阅读笔记-回溯【分割回文串】

题目 给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串。 返回 s 所有可能的分割方案。 示例: 输入: "aab" 输出: [ ["aa","b"], ["a","a","b"] ] 思路 本题这涉及到两个关…

CSS水波纹效果

效果图&#xff1a; 1.创建一个div <div class"point1" click"handlePoint(1)"></div> 2.设置样式 .point1{width: 1rem;height: 1rem;background: #2ce92f;position: absolute;border-radius: 50%;z-index: 999;cursor: pointer;} 3.设置伪…

程序员搞副业你可以这样做

程序员搞副业你可以这样做 文章目录 程序员搞副业你可以这样做01/开发外包项目02/开源项目赢取打赏盈利模式之一&#xff1a;多种产品线盈利模式之二&#xff1a;技术服务型盈利模式之三&#xff1a;应用服务托管&#xff08;ASP&#xff09;盈利模式之四&#xff1a;软、硬件一…

BUUCTF-Misc(1~4题)

一.签到 答案就在上面&#xff0c;输入&#xff1a;flag{buu-ctf} 二.金三胖 然后解压得到一个GIF图 大家清楚地看到闪过了两张红色的图片 方法一&#xff1a;使用GifSplitter 2.0 然后就可以在金三胖的文件夹里生成了每一帧的图片 可以看到答案是flag{he11ohongke} 方法二…

Samba实现windows和Linux共享文件,环境搭建

​ 搭建步骤 安装sambad sudo apt-get install samba samba-common 创建samba用户和密码 此处使用 Linux 账号和密码作为 samba 的账号和密码。Linux 账号为 shelmean shelmeanmachine:[~] $ sudo smbpasswd -a shelmean New SMB password: Retype new SMB password: Add…

二叉树-数据结构

二叉树-数据结构 二叉树是属性结构的一个重要类型。 如下图二叉树形状 二叉树特征如下&#xff1a; 1.二叉树由 n(n > 0) 个节点组成 2.如果 n 为 0&#xff0c;则为空树 3.如果 n 1&#xff0c;则只有一个节点称为根节点(root) 4.每个节点最多有两个节点&#xff0c;节…

STM32学习和实践笔记(8): 理解位带区和位带别名区

如前《STM32学习和实践笔记&#xff08;4&#xff09;: 分析和理解GPIO_InitTypeDef GPIO_InitStructure (b)&#xff08;含memory mapping图&#xff09;-CSDN博客 》中所写&#xff0c; STM32一共有4GB的地址&#xff0c;对所有的寄存器、存储器、外设等进行统一编址。 每…

PostgreSQL入门到实战-第二十二弹

PostgreSQL入门到实战 PostgreSQL中表连接操作(六)官网地址PostgreSQL概述PostgreSQL中self-join命令理论PostgreSQL中self-join命令实战更新计划 PostgreSQL中表连接操作(六) 使用PostgreSQL自联接技术来比较同一表中的行 官网地址 声明: 由于操作系统, 版本更新等原因, 文…

19、矩阵-螺旋矩阵

思路: 这道题主要是对空间上有所思考&#xff0c;每次转一圈上右下左各减少一层。不妨设top&#xff0c;right&#xff0c;down&#xff0c;left&#xff0c;每次旋转一圈 top&#xff0c;right--&#xff0c;down--&#xff0c;left 代码如下&#xff1a; class Solution …

【Linux】网络基础(一)

文章目录 一、计算机网络背景1. 网络发展2. 认识“协议” 二、网络协议初识1. 协议分层2. OSI七层模型3. TCP/IP五层&#xff08;或四层&#xff09;模型 三、网络传输基本流程1. 同局域网的两台主机通信数据包封装和分用封装分用 2. 跨网络的两台主机通信 四、网络中的地址管理…

应该如何进行POC测试?—【DBA从入门到实践】第三期

在数据库选型过程中&#xff0c;为确保能够灵活应对数据规模的不断扩大和处理需求的日益复杂化&#xff0c;企业和技术人员会借助POC测试来评估不同数据库系统的性能。在测试过程中&#xff0c;性能、并发处理能力、存储成本以及高可用性等核心要素通常会成为大家关注的焦点&am…