实战解析:打造风控特征变量平台,赋能数据驱动决策

news2024/11/18 15:41:29

金融业务产品授信准入、交易营销等环节存在广泛的风控诉求,随着业务种类增多,传统的专家规则、评分卡模型难以应付日趋复杂的风控场景。

在传统风控以专家规则系统为主流应用的语境下,规则模型的入参习惯被称为“变量”。基于专家规则的风险评估,存在规则触发阈值难量化的特点,规则命中精准度提升存在瓶颈。

随着机器学习及神经网络算法的技术落地,更多开始采用“特征”来代指供给算法模型的入参。具体来说,“特征”在其产出过程中,作为上游外数接口的出参,在应用端输入过程中,作为下游规则模型的入参。

建设背景

特征变量数据来源包括客户基本信息、财务状况、消费行为和社交网络图谱等,其在不同风控模型中输入反映借款人的信用状况和风险水平的度量,高效的特征抽取管理是一系列线上化风控动作的数据基础。

在银行保险等同业金融机构中,由于风险业务来源的在组织架构上的复杂性,不同条线之间不可避免地存在烟囱式的特征变量开发,策略建模人员的数据需求往往在某一产品中已开发部署但并未形成统一管理共享的平台机制,造成了业务间用数口径及策略生成一致性的偏差。

因此,需要对风险业务用数流程进一步产品化抽象,来规范特征变量的衍生、存储、调用及监测,统一风控特征变量平台也应运而生。

痛点分析

在风控任务开发场景中,模型任务从预先开发的变量存储表中取数。实际开发中往往存在特征开发部署门槛高、复杂特征抽取难度大、特征应用口径不一致、特征加工流程不统一等业务及开发痛点。

01 实时特征变量开发门槛高

风控业务相关策略建模人员技术栈以Python、SQL能力为主,对基于Java语义的Flink开发有一定学习成本,除了基于离线数据的模型训练部署,实时特征处理能力不足。

02 复杂特征变量抽取难度大

部分外部数据源接口的返回报文嵌套层级较多,出参位置混乱,接口取数难度较大,对抽取特征缺乏统一平台管理维护。

03 特征变量应用口径不一致

在构建风控模型时模型任务存在相同的特征变量需求,但不同团队或不同项目中存在针对相同的原始数据重复进行特征工程处理的情况,导致特征变量逻辑变更后相应SQL的一致性和准确性问题。

04 特征变量加工流程难统一

下游策略、模型侧的新增特征变量需求缺乏一致标准化的加工路径,导致对应变量表出入参命名杂乱,当新增字段通过原SQL无法读取上游表,产生更多复杂嵌套的Join操作,随着衍生特征及变量集的配置,任务规模及资源占用情况往往难以控制。

风控特征变量体系建设方案

风控特征变量体系建设聚焦于金融机构实时风险识别与防控,通过对多源异构数据的批流抽取、聚合与衍生加工,沉淀标准化、易扩展的统一特征变量平台,实现从数据接入、特征变量生成、为下游模型训练及决策执行供数的端到端闭环,提升风险事件响应速度与决策精准度。

01 技术能力

风控业务往往面临实时数据处理需求,在客户交易、信贷审批等场景中,流计算能够实时更新客户信用评级、额度管控等风险信息,为下游决策引擎提供实时化跨系统的风险识别能力。

file

在实时风控技术系架构中,计算包括了批计算、流计算及图计算,以流计算能力为例,Flink提供了底层面向实时特征计算的能力,主要用于数据ETL、宽表加工、窗口计算、双流Join等场景,通过预计算、状态聚合计算等能力实现原始特征变量、标准特征变量、衍生特征变量的加工,为决策模型提供特征支持。

模型引擎主要负责存储和管理经训练的各类模型,如信用评分模型、欺诈检测模型、流失预警模型等。

决策引擎集中管理规则集、决策树、决策矩阵、评分卡等策略模型,规则集调用特征变量服务及模型引擎的模型服务参与决策流的逻辑运算。

特征变量引擎基于异构数据源,进行数据抽取、加工计算、标准化管理维护,实现风控人员自助查询,更加便捷、规范地进行业务取数和数据分析。

file

02 数据来源

以信贷业务数据源为例,根据授信主体不同通常可分为To C个人信贷及To B对公信贷。在实际业务审查中,客户经理通常以现金流水平及负债水平两大指标进行客户授信可行性分析。

在个人信贷场景下,客户现金流水平可拆解为社保缴纳、银行及三方支付平台收入流水。负债水平则主要来源于人行征信,涵盖了个人名下各金融机构发放的全部贷款、占用风险敞口的金融产品及对外担保信息,征信数据来源除人行外包括其他第三方个人持牌征信机构,如百行征信、朴道征信及钱塘征信。

在对公信贷场景下,小微普惠类贷款的风险来源聚集于其实控人,现金流水平除实控人个人流水外同步采集对公账户流水,负债水平则额外接入其人行企业征信。中大型企业授信及行业专项贷款下,其主体风险行为事件难以依赖征信税务数据直接度量,区别于小微普惠类贷款,需结合企业实地库存与关联企业经营状况进一步线下尽调。

针对以上两类信贷业务,特征加工往往采集以下多维数据来源:

file

03 数据处理

面向不同风控场景的数据源,采用批、流、预计算等模式融合的特征变量加工方式,实现对业务需求的敏捷开发与存算成本管控。

批计算:针对大规模历史数据集,采用批处理进行特征变量加工。对数据中的缺失值、异常值等问题,采用插值、平滑等方法进行处理,保证数据质量。

流计算:针对实时数据流,采用流式处理模式进行特征变量加工。通过实时流处理技术,实现对数据实时分析,满足风控场景对实时性的要求。同时,采用事件驱动的架构,确保数据处理的高效与灵活性。

预计算:针对业务系统数据,视其变化频率预先计算并存储特征变量,可以有效降低流计算成本,提高决策系统从特征引擎取数的效率。

04 平台建设

具体来说,特征变量平台需要整合征信系统、三方数据源、企业内部系统等多来源数据并进行流批能力的衍生加工,能够支持不同业务场景的风控模型入参需求。对于不同复杂度的特征变量支持可配置的、业务主导的低代码加工方式。因此,特征变量平台的建设通常包含以下几个方面:

1、特征变量抽取与生成 自动化数据清洗与预处理,将原始数据转化为可供建模使用的特征。提供画布+组件化的一站式WEB IDE模式提升开发效率,支持用户自定义或系统内置的特征计算逻辑。

2、特征变量存储与管理

基于分布式存储机制,存储大规模的历史及实时特征数据。实现特征版本控制,记录特征计算逻辑的变更历史,确保模型训练时可以回溯至特定版本的数据。

3、特征变量服务化

提供特征服务接口,为各种模型训练、预测以及决策引擎提供实时或批量特征查询服务。通过输出组件可以快速对接下游规则引擎、实时数仓、消息队列,满足复杂业务场景下低延迟、高并发访问的性能需求。

4、特征变量探索与分析

提供丰富的统计分析工具,帮助分析人员快速了解特征变量分布、关联关系等。可视化界面展示特征重要性、影响度等指标,辅助特征选择与迭代。

5、与内外部系统的集成

集成金融机构内部交易系统、CRM系统、ERP系统等多种数据源。支持与其他风控组件(如规则引擎、模型库等)以及外部征信等第三方数据服务商的对接。

05 建设收益

在某银行客户特征变量项目的落地实践中,平台服务于贷前授信场景的特征变量加工衍生管理需求,对接上游多样化数据来源,如外部的运营商、工商、司法数据;银行内部的客户设备信息、账户交易信息;贷前收集的资产估值、额度测算数据。通过实时特征变量计算能力,向下游申请评分卡等模型供数。

file

1、组件化抽取特征变量

平台从SQL命令中批量解析特征变量,面向模型任务的取数需求,用户可在平台自由加工组合所需特征变量写入相应主题hive表以供读取加工。

2、特征变量集同步更新

页面支持增、删、编辑特征变量集,平台表结构操作自动同步至物理模型表。当特征变量逻辑发生变化时,仅需编辑对应标准特征变量衍生代码或原始特征变量标准化操作,避免面向大段sql函数的复杂开发。

3、稳定性及异常监测

平台提供的监控看板功能支持了对特征变量的波动及变量集调用情况的监测,特征变量值监控确保上游数据异常时,下游任务及时停止,最大可能避免模型用数时特征变量差异过大造成的模型结果失真;统计各变量集调用情况,实时推送基线告警及强弱规则校验信息。

4、平台统一管控

平台提供成员管理、审批中心、调用分析、自动归档、任务重启等管控手段,支持任务优先级调整,统一调度任务运行以提高数据服务达成效果及集群资源利用率。

平台部署上线,覆盖支持了消费贷、小微信用贷等业务下30+授信场景。特征变量平台通过与下游规则模型引擎的结合,实现了实时决策能力在风控场景的落地,满足了贷前授信场景下提高用户在信用卡申请、贷款审批过程中的客户体验和放款效率,此外,也为贷后催收、交易反欺诈等场景供数,支持下游系统实时监控用户的异常交易行为,进行反洗钱身份识别,并进行实时告警推送。

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492270.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日好题3.5

前缀和 这个题目巨妙,打的时候没写出来,后面补题发现太牛了 思路:当前区间左端点 L L L ,当我们向右移动一次,就相当于,原式 - f ( L ) f ( L 1 e 18 ) f(L) f(L 1e18) f(L)f(L1e18),值就…

列车调度——典型的验证栈的出栈合不合法的问题,值得一看

题目描述 有n列火车按照1,2,3...n的顺序排列,现所有的火车需要掉头,所以需要火车先驶入一个调度站,再开出来。 由于只有一根铁轨,所以要么最前面的一辆火车进去调度站,要么调度栈内最上面一辆火车开出调度栈。 现给…

go并发模式之----工作池/协程池模式

常见模式之四:工作池/协程池模式 定义 顾名思义,就是有固定数量的工人(协程),去执行批量的任务 使用场景 适用于需要限制并发执行任务数量的情况 创建一个固定大小的 goroutine 池,将任务分发给池中的 g…

如何用VisualVM工具查看堆内存文件

1.找到安装JDK的bin目录,找到 jvisualvm.exe可执行文件运行即可; 2.然后导入堆内存文件 .hprof文件,看类; 3.分析是哪些对象占了多少内存。

七大 排序算法(一篇文章梳理)

一、引言 排序算法是计算机科学中不可或缺的一部分,它们在数据处理、数据库管理、搜索引擎、数据分析等多个领域都有广泛的应用。排序算法的主要任务是将一组数据元素按照某种特定的顺序(如升序或降序)进行排列。本文将对一些常见的排序算法…

Altium Designer 22 性能优化

目录 AD22 使用起来很卡,完全受不了,卡到我的快捷鼠标宏都无法使用,来试着优化一下它。 每点完一步,都需要点击应用,否则不下心关掉了会很难受 打开右上角齿轮进入设置,取消勾选这几个勾: 接…

不同用户同时编辑商品资料导致的db并发覆盖

背景 这个问题的背景来源于有用户反馈,他在商品系统中对商品打的标签不见了,影响到了前端页面上商品的资料显示 不同用户编辑同一商品导致的数据覆盖问题分析 查询操作日志发现用户B确实编辑过商品资料,并且日志显示确实打上了标签&#x…

【无标题】计算机主要应用于哪些领域

科学计算(或称为数值计算)、数据处理(信息管理)、辅助工程、生产自动化、人工智能。1、科学计算(或称为数值计算):早期的计算机主要用于科学计算。目前,科学计算仍然是计算机应用的一…

6_怎么看原理图之协议类接口之LCD笔记

首先想一想再前几篇文章讲的协议类的前提 1、双方约定好通信的协议 2、双方满足一定的时序要求 以上第二点又有一些要求: 1)弄清2440在这个通信协议中,能设置哪些时序的值,这些值的含义是什么——2440手册 2)弄清楚这…

【Leetcode每日一刷】贪心算法| 45.跳跃游戏 II

1、45.跳跃游戏 II 🦄解题思路: 这题还是比【55.跳跃游戏】难一些的。第一个版本只是说,求跳跃的范围,覆盖到了终点即可。这题则是,能保证覆盖范围到达终点,求的是最少跳几次,跳到终点。 这题…

针对conan install下载source失败问题解决

ps:下面操作是Linux系统,针对win操作系统也适合 问题现象 在运行conan install时,本地没有对应的库的缓存,conan会自动从conan center下载,可能会出现以下情况,重试多次,仍然是报错。 libssh2/1.11.0: C…

Spring基础——XML配置Bean的依赖注入

目录 什么是依赖注入依赖的解析 Spring提供的两种注入方式1. 基于构造器的赖注入1.1 通过类型注入1.2 通过索引注入1.3 通过参数名注入1.4 通过静态工厂方法参数注入 基于Setter的依赖注入 Spring对不同类型的注入方式1. 字面值(String,基本类型&#xf…

android开发文档下载,你的技术真的到天花板了吗

Android 基础 1.Activity 1、 什么是 Activity? 2、 请描述一下 Activity 生命周期 …… 2.Service 3.Broadcast Receiver32 4.ContentProvider 5.ListView 6.Intent 7.Fragment 1.Fragment 跟 Activity 之间是如何传值的 2.描述一下 Fragment 的生命周期 3.Fragme…

Cesium实战三:飞行航线动画

飞行航线追踪 可视化从旧金山到哥本哈根的真实航班。 1、获取点位数据:构建飞行跟踪器 – Cesium (cesium.com) 2、在地图上添加飞行点位:循环遍历点位数据,利用Entity直接添加点至地图上。 //添加飞行点位 const addFlightPoint () >…

计算机网络(2)-----数据链路层

目录 一.数据链路层的基本概念 二.数据链路层的功能概述 功能一:为网络层提供服务。无确认无连接服务,有确认无连接服务,有确认面向连接服务。 功能二:链路管理,即连接的建立、维持、释放(用于面向连接的服务)。 功能三:组帧 透明传输:…

基于Django的携程网Top热门景点数据可视化分析

前言: 今天给大家分享一个基于Django的携程网Top热门景点数据可视化分析项目,以下是该项目大大概内容 项目名称:基于Python(django)的携程Top热门景点数据可视化分析 涉及技术:Python,Djang…

为什么有了HTTP协议,还要有WebSocket协议?

文章目录 使HTTP不断轮询长轮询WebSocket是什么?怎么建立WebSocket连接WebSocket抓包WebSocket的消息格式WebSocket的使用场景总结 平时我们打开网页,比如购物网站某宝。都是点一下列表商品,跳转一下网页就到了商品详情。 从HTTP协议的角度来…

[C语言]——scanf和printf介绍

目录 一.printf 1.基本用法 2.占位符 3.占位符列举 4.输出格式 4.1限定宽度 4.2总是显示正负号 4.3限定小数位数 4.4输出部分字符串 二.scanf 1.基本用法 2.scanf的返回值 3.占位符 4.赋值忽略符 一.printf 1.基本用法 printf() 的作⽤是将参数⽂本输出到屏幕。…

winui开发笔记(五)应用程序图标

应用程序图标、发布者、显示名称大部分都在package.appxmanifest清单文件中,可以正常打开,也可以使用xml文本编辑器打开。 以下是一个正常的应用程序中所有的与图标相关的图片: 但是设置之后会有一圈白,包括在电脑最下边一行&…

chrome插件extensions获取所有窗口tab页和windows页

获取windows页:https://developer.chrome.com/docs/extensions/reference/api/windows?hlzh-cn 获取所有tabs页:https://developer.chrome.com/docs/extensions/reference/api/tabs?hlzh-cnchrome.tabshttps://developer.chrome.com/docs/extensions/…