【40分钟速成智能风控11】数据测试与应用

news2024/11/26 14:47:21

目录

​编辑

数据测试与应用

联合建模机制

数据质量评估

覆盖率

稳定性

模型效果

投资回报率

线上应用

数据安全合规


数据测试与应用

智能风控模型的搭建离不开机构内外部的数据源,如何从海量数据源中挑选出最合适的部分进行特征工程和风控建模,是风控人员在实际工作中所面临的问题。线上每个数据源的引入,都需要先通过一套完整的数据测试和应用流程。

联合建模机制

数据合作存在于风控场景中的各个玩家之间,大数据公司和互联网金融公司之间需要进行原始数据和底层特征的交互,互联网金融公司与传统金融机构之间也需要有模型分数和用户画像之间的交互。在当前的监管要求下,纯粹的数据合作已经越来越少,联合建模机制被广泛地应用于数据测试环节。联合建模是指数据需求方提供一批主键加密的客户样本,与数据提供方进行撞库,匹配出这批客户的底层数据,然后需求方在提供方的建模环境内进行数据分析和建模工作。最终需求方的线上模型也部署在数据提供方的机房内,大数据公司不输出任何明细字段。这样的机制保证了大数据公司的数据安全,互联网金融公司也没有泄露客户的任何信息,是满足当前监管要求的一种方案

除去这种联合建模机制,近两年也有多家科技公司提出联邦学习的概念,使得多家数据源公司能够将加密后的原始数据汇总到一起来共建模型。这一概念背后主要是利用了同态加密的原理,加密后的数字可以进行乘法和加法运算而无须解密;对于逻辑回归和深度学习模型,事实上可以拆分为加减乘除、sigmoid、tanh 和指数函数等少数几个计算组件,后三个函数都可以通过泰勒展开无限逼近来实现,因而已经能够支持联邦学习。不过目前联邦学习还存在计算量大、通讯要求高等问题,或许未来可以将区块链和5G技术引入其中解决这些痛点。

数据质量评估

在最终入模前,需要对内外部的数据源进行质量评估,主要从覆盖率、稳定性、模型效果和投资回报率(Return On Investment,ROI)四个方面考虑。

覆盖率

对于数据源的评估,覆盖率是首要考虑的因素,如果对于机构客群的覆盖率太低,则不满足建模的需求。通常外部数据源的覆盖率要在70%以上才会接入,不过像运营商和设备属性(通常只能覆盖Android手机)类数据,由于客观因素限制,可以考虑建立子模型。

稳定性

风控模型通常迭代周期较长,对于稳定性的要求也会比较高。对于内外部特征,都需要计算PSI来进行筛选,小于0.1才会考虑纳入模型。除去特征稳定性,还需要考虑系统层面的稳定性,对于线上调用经常超时和因为监管因素有下线风险的数据源,不建议接入,应优先考虑更为稳定的内部数据源。

模型效果

满足了覆盖率和稳定性的前提,才会进一步考虑数据源在模型上的表现。单特征的效果可以通过IV值或者树类模型的特征重要性来衡量;整体特征的效果可以从单独建立子模型和融入已有模型观察增益这两个方面来考虑。

投资回报率

在外部数据源正式采购前,还需要详细计算该数据源的ROI。首先,在保证效果的前提下,同类数据源能否在市场上找到最便宜的提供方;其次,外部数据放在哪个环节调用对于整体策略的收益最大,是否需要梯度式调用,这些都是需要考虑的问题。

线上应用

最终的应用环节,需要根据数据源的差异制定不同的线上方案。对于内部数据源,可以采用T+1或者T+7的形式跑批,模型结果线下批量更新完后再服务化;而对于外部数据源,由于成本较高,通常采用API调用的方式,线上实时计算模型结果并服务化。涉及外部数据源的模型,应先测试线上小流量,待确认数据提供方系统稳定后再放开流量。

数据安全合规

2018年5月,欧盟出台了《通用数据保护条例》(General Data Protection Regulation,GDPR),数据的安全合规问题再一次被风控从业者们所关注。就国内而言,从2017年“数据堂”侵犯个人信息案,到2019年底警方查处一批爬虫数据公司,风控数据乱象正得到逐步整治。2019年5月,国家互联网信息办公室也发布了《数据安全管理办法(征求意见稿)》,着重规范了网络运营者对于个人信息和重要数据的安全管理义务。

在该管理办法中,将利用网络开展数据收集、存储、传输、处理、使用等活动统一规范为数据活动,除纯粹家庭和个人事务外,在中国境内开展数据活动的行为都将受管理办法的制约。同时在此管理办法中,新增以下若干条例:

  • 1)将重要数据纳入监管;
  • 2)新增个人敏感信息和重要数据备案管理制度;
  • 3)新增向第三方提供重要数据的批准管理制度;
  • 4)首次规范“爬虫”技术等自动获取数据的行为;
  • 5)首次针对AI技术自动合成信息进行规制;
  • 6)明确平台对于接入第三方应用的数据安全保障义务等。

对于风控工作者们来说,我们应该在安全合规的前提下采集必要的客户数据,并且利用大数据和机器学习技术最大化这些数据的价值,只有这样才能推动整个行业的健康发展。

print('要天天开心呀')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1590959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringAI初体验之HelloWorld

目录 前言1.准备工作2.初始化项目3.解决问题3.1 Connection Time out 连接超时问题3.2 You exceeded your current quota 额度超限问题 4.访问调用5.总结 前言 在逛SpringBoot页面时突然看到页面上新增了一个SpringAI项目,于是试了一下,感觉还行。其实就是封装了各家…

【Qt-Qt Creator使用技巧】

工具-Qt Creator ■ 使用技巧■ 定义触发片段■ Qt Creator 行编辑■ 代码注释■ 代码补全■ 快速给函数添加定义■ 创建书签■ 同步列输入■ 局部替换■ 源代码阅读■ 源码调试■ 使用技巧 ■ 定义触发片段 ■ Qt Creator 行编辑 shift + alt + up / down来获得多个游标。 …

idea导入maven项目出错

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 不知 Gemini 1.5 Pro 是否用到了这项技术。 谷歌又放大招了,发布下一代 Transfor…

Python+Selenium 自动化 - 浏览器调用与驱动配置

PythonSelenium 自动化 - 浏览器调用与驱动配置 一、浏览器版本查看与驱动下载二、selenium 库安装与调用三、常用命令解释 一、浏览器版本查看与驱动下载 通过关于可以看到浏览器的版本。 如果是新版浏览器,可以在这个地址下载:https://googlechromel…

怎么把多个音频剪辑合并到一起?快来试试实用音频的合并方法,一键就能无损拼接!

一,什么是音频合并 音频合并是一种将多个音频文件组合成一个单一文件的过程。这个过程在音频编辑、音乐制作、语音识别、电影制作等领域中非常常见。音频合并的目的是为了方便管理和播放,以及实现更复杂的音频处理需求。 二,音频合并的原理…

【蓝桥杯】蓝桥杯算法复习(五)

😀大家好,我是白晨,一个不是很能熬夜😫,但是也想日更的人✈。如果喜欢这篇文章,点个赞👍,关注一下👀白晨吧!你的支持就是我最大的动力!&#x1f4…

数据结构复习指导之绪论(数据结构的基本概念)

文章目录 绪论: 考纲内容 知识框架 复习提示 1.数据结构的基本概念 1.1基本概念和术语 1.数据 2.数据元素 3.数据对象 4.数据类型 5.数据结构 1.2数据结构三要素 1.数据的逻辑结构 2.数据的存储结构 3.数据的运算 绪论: 考纲内容 算法时…

jdk和Eclipse软件安装与配置(保姆级别教程)

目录 1、jdk的下载、安装、配置 1.1 jdk安装包的的下载地址:Java Archive | Oracle ,点击进入,然后找到你想要的版本下载,如下图: 2.1 开始下载,如下图: 3.1 登入Oracle账号就可以立即下载了…

开发有哪些常见陷阱?

引言 在当今数字化时代,软件开发已成为推动科技进步和商业发展的重要引擎。然而,软件开发并非一帆风顺,其中蕴藏着许多陷阱和挑战。如何避免这些陷阱,提高软件开发的效率和质量,成为开发者们面临的重要问题 本文将深…

redis-缓存穿透与雪崩

一,缓存穿透(查不到) 在默认情况下,用户请求数据时,会先在缓存(Redis)中查找,若没找到即缓存未命中,再在数据库中进行查找,数量少可能问题不大,可是一旦大量的请求数据&a…

谷歌google浏览器无法更新Chrome至最新版本怎么办?浏览器Chrome无法更新至最新版本

打开谷歌google浏览器提示:无法更新Chrome,Chrome无法更新至最新版本,因此您未能获得最新的功能和安全修复程序。点击「重新安装Chrome」后无法访问此网站,造成谷歌浏览器每天提示却无法更新Chrome至最新版本。 谷歌google浏览器无…

开源AI项目:合同检查流程优化,提高工作效率与准确性

合同检查是企业法务管理中的重要环节,它不仅关系到企业合规经营,还直接影响到企业的经济效益和风险控制。随着人工智能技术的不断发展,AI在合同管理领域的应用逐渐成为提高工作效率和准确性的有效手段。本文将探讨如何结合AI技术,…

构建智能连接的未来:物联网平台系统架构解析

随着科技的不断进步和互联网的普及,物联网(Internet of Things, IoT)已成为连接世界的新方式。物联网平台作为实现物联网应用的核心基础设施,其系统架构的设计和实施至关重要。本文将深入探讨物联网平台系统架构的关键要素和最佳实…

MySQL高级--14--group by 分组取时间最新的一条数据

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 group by 分组取时间最新的一条数据数据准备错误查询分析错误原因解决思路: 实现方法一(使用 LIMIT 查询)实现方法二&#xff08…

电子章是怎么盖上去的?

电子章是怎么盖上去的呢,本文介绍利e-章宝(易友EU3000智能盖章软件)盖电子骑缝章的方法。如下: 1.在软件中导入待批量盖章的PDF文件 如下图,在“待盖章PDF文件”区域,点“添加”,导入待盖章PDF文件。 如上图&#xf…

Linux第89步_了解异步通知及其结构和函数

1、了解“异步通知” “异步通知”的核心就是信号。信号是采用软件模拟的“中断”,它由“驱动程序”主动向“应用程序”发送信号,并报告自己可以访问了,“应用程序”收到信号以后,就从“驱动设备”中读取或者写入数据。整个过程就…

npm install 报 ERESOLVE unable to resolve dependency tree 异常解决方法

问题 在安装项目依赖时,很大可能会遇到安装不成功的问题,其中有一个很大的原因,可能就是因为你的npm版本导致的。 1.npm ERR! code ERESOLVE npm ERR! ERESOLVE unable to resolve dependency tree 2.ERESOLVE unable to resolve dependenc…

赋能未来:AI技术革新中的创业契机

目录 前言 一、行业解决方案 1、行业参考说明 2、操作步骤建议 二、智能产品和服务 1、行业参考说明 2、操作步骤建议 三、教育和培训 1、行业参考说明 2、操作步骤建议 总结 前言 随着人工智能(AI)技术的快速发展,越来越多的创业…

高质量ChatGPT Prompts 精选

通用超级 Prompt GPT4实用。通用超级 prompt ,根据你想要的输出和你的反馈,自动使用相应的专家角色帮你解决问题。如果需要升级ChatGPT Plus,可以参考教程 升级 GPT4.0 保姆教程 您是一位具有多领域专长的专家级ChatGPT提示工程师。在我们…