第八章:联邦学习在金融保险领域的应用案例

news2025/1/14 18:11:29

8.1 概述

联邦学习作为一种保障数据安全的建模方法,在保险、金融等行业中的应用前景十分广泛,因为这类行业昔谝受到更为严格的监管和隐私保护法律法规的约束,跨部门或者跨枧构之间的数据,无法被直接共卓进行机器学习模型训练。因此,信助联邦学习来训练一个联邦模型不失为一种有效的解决方案。

以智慧零售业务为例,智慧零售业务涉及的数据特征。通常可以分为用户资产属性、用户个人偏好,以及产品特征三大部分。这三种数据特征很可能分散在三个不同的部门或企业中。例如,银行拥有用户的资产属性数据,社交产品拥有用户个人的画像数据,而购物网站则拥有产品的数据特征。在这种情况下,集中式的处理流程如图8-1所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M19qrgc0-1692151567370)(https://p6-novel.byteimg.com/large/novel-pic/188e7319e63963f9c10bbf08d43ad785)]

​ 图8-1中式的处理流程。利用分散在不同机构的异构特征数据进行中心化训练

但在当前的数据监管法律法规约束下,特别是隐私数据法案不断完善的前提下,这种中心化建模方式面临着两大难题:

第一,出于保护用户隐私及企业数据安全等原因,银行、社交网站和购物网站三方之间通常存在数据壁垒,即三方的数据通常以割裂的形式存在,因此,智慧零售的业务部门无法同时获取这三方数据进行聚合并建模。

第二,三方的特征数据通常是异构的,即三方数据所在的特征空间不一致,传统的机器学习模型对异构特征数据的处理,需要先对数据进行有效的预处理,转化为统一的数据特征表示。如第一点所述,如果由于数据割裂导致不能获取某一方的数据,相当于造成了特征的缺失,本地单点建模的性能效果将受到很大的影响。

而联邦学习的提出为解决这一类问题提供了可行的解决方案,在本书第1章中,我们介绍了联邦学习的分类,包括横向联邦学习和纵向联邦学习两大主流类型,本章我们将探讨这两种类型的联邦学习如何应用于金融保险领域。

具体来说,本章将分析两个具体的应用案例,分别是:基于纵向联邦学习进行保险个性化定价;基于横向联邦学习进行银行间的反洗钱建模。我们将详细分析如何使用联邦学习技术打破机构间的数据壁垒,保证数据在不出本地的前提下,仍然能够有效地训练机器学习模型,并利用联邦模型提升金融产品的能力。

8.2 基于纵向联邦学习的保险个性化定价案例

由于受到其他行业高度个性化服务的影响,保险行业的发屉已经从过去的统一保险费用定价向个性化定价转变,高度个性化的保费俨然是一个新的发屉趋势,《2020年保险业技术发屉趋势》中指出,当前有超过80%的保险消费者会寻找某种形式的个性化服务,比如定价、推荐或来自保险公司的信息。

8.2.1 案例描述

保险个性化定价,与其他个性化服务一样,需要平衡保险公司和客户之间的关系。一方面,消费者会根据自身的需要选择符合个人的产品;而另一方面,为了提高客户满意度,保险公司也需要具备扎实的数据洞察力基础。

埃森哲咨洵公司的一项研究显,77%的保险客户愿意提供自己的使用和行为数据以换取保险建议、更快的理赔或更低的保费。保险领域显然正在利用这一点,因为只有20%的客户认为他们的保险提供商没有任何客户定制方面的经验。

但保险业的个性化定价却受到很多因素的制约,导致其模型的构建往往不准确,其中主要的难点在于数据层面。对保险进行个性化定价,需要结合每一位客户的特征属性,但是客户的数据属性多种多样,包括央行征信报告、税收、信贷、消费能力、年龄、职业等。然而,对于金融粗构来说,能直接使用的数据一般只有中央银行的信用报告和信贷数据,其他数据都在其他机构中,数据的缺失是致个性化建模不准确的最关键因素。

图8-2所示的是建模中的数据情况,图8-2(a)所示的是理想情况下,构建保险定价模型期望韋到的数据,包括社交属性中的年龄、职业、收入等;购买属性中的消费额度等;银行属性中的贷款记录和征信等。但在现实情况中,如前面所述,每一项数据都保存在不同的机构中,银行能获取的只有贷款记录数据和征信数据,如图8一2(b)

为此,我们利用前面提到的纵向联邦学习的思想,它非常适合处理跨部门或者跨机构之间联台建模的问题。

在这里插入图片描述
图8-2保睑个性化定价在理想和现实场吕下的数庭建倥情况

8.2.2 保险个性化定价的纵向联邦建模

本案例我们要解决的是:联合多方数据构建一个保险个性化定价模型,用来预测一个客户的出险概率。假设现在保险公司与一家出租车公司合作,希望通过个性化模型帮助出租车公司预测客户的出险概率,同时保险公司还与其他行业构公司有合作,但是这三方之间的数据是不连通、也是不能共享的,如图8-3所示。保险公司如何在合法合规的前提下,朕合两方的数据联合建模,提升保险定价的模型效果呢?

img
图8.3 本例的三个参与方

出租车公司有每一个客户的订单信息、车辆信息和业务表现等,我们把这些特征数据记为X1,同时出租车公司还有历史订单中客户的出险概率,记为Y。此外,该保险公司与另一家互朕网公司也有业务合作在该互朕网公司的产品中,用户注册时会带有客户的画像属性,包括人口属性、兴趣爱好、教育信息和财务状况等,我们将这部分特征数据记为X2,这样,可以将问题构建为如图8-4所示的纵向联邦学习建模。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
个性化的保险定价,本质上是根据客户的特征信息预测出险概率,可以将问题归结为二分类问题,本案例中我们使厍渣辑斯蒂回归模型来预测保险定价:

img

要在数据不共享的前提下,求解式(8.1)的最优参数W,这是纵向联邦学习的经典应用,第6章详细讲解了如何使用FATE进行纵向线性回归的训练求解,本案例的求解过程基本与其一致,只需要将训练模型从线性回归改为逻辑斯蒂回归朗可,主要的执行步骤包括:

(1)求取相交的用户ID集合:在图8-5中,我们看到在联合建模的时候,两家公司所含有的用户旧集合不同,即用户群体不可能完全重叠,因此第一步需要找到相同的用户ID集合,这种在不泄露数据的前提下,找到双方公共ID集合的技术称为私有集交集(PSI),本届提供一种基于散列与RSA加密法相结合的实现方案。
在这里插入图片描述
在这里插入图片描述
步骤1:公司B利用RSA算法生成公钥对(n,e)和私钥对(n,d),并将公钥对(n,e)发送给公司A

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

8.2.3 效果对比

在这里插入图片描述

8.3 基于横向联邦的银行间反洗钱模型案例

在这里插入图片描述

8.3.2 反洗钱模型的横向联邦建模

在这里插入图片描述

8.3.3 效果对比

在这里插入图片描述

8.4 金融领域的联邦建模难点

8.4.1 数据不平衡

在这里插入图片描述

8.4.2 可解析性

事实上,在金领域,绝大部分场景下我们采用的都是线性模型,其中一个主要原因是考虑可解析性。在金场景下,面向的可解析对象包括客户、政府监管机构和开发人员,线性模型相比于复杂的神经网络筻法,在性能上可能会微下降,但是具有很强的可解析性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/897043.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Go download

https://go.dev/dl/https://golang.google.cn/dl/

贝锐蒲公英助力电子公交站牌联网远程运维,打造智慧出行新趋势

在现代城市公共交通系统中,我们随处可见电子公交站牌的身影。作为公共交通服务的核心之一,电子公交站牌的稳定运行至关重要,公交站台的实时公交状况、公共广告信息,是市民候车时关注的焦点。 某交通科技公司在承接某市智能电子站牌…

Fluent-MyBatis

Fluent-MyBatis Fluent-MyBatis 简介 何为 Fluent Mybatis? Fluent Mybatis, 是一款 Mybatis 语法增强框架, 综合了 Mybatis Plus, Dynamic SQL, JPA 等框架特性和优点 Fluent-MyBatis 开源地址 Fluent-MyBatis 原理 Fluent-MyBatis 原理是利用 annotation pro…

商城-学习整理-高级-商城业务-商品上架es(十)

目录 一、商品上架1、sku在ES中存储模型分析2、nested数据类型场景3、构造基本数据(商品上架) 二、首页1、项目介绍2、整合thymeleaf(spring-boot下模板引擎)渲染页面3、页面修改不重启服务器实时更新4、渲染二级三级数据 三、搭建…

HCIP---路由策略

文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 前文我们初步了解了重发布技术的技术的工作流程及配置方法,在解决路由回馈问题的同时,路由回馈,选路不佳问题仍然没有得到有效解决,接下来通…

HCIA---ARP协议

文章目录 目录 前言 一.ARP协议简介 二.ARP协议工作原理 交换机转发原理: 泛洪: 总结 前言 我们知道在OSI七层参考模型中,TCP/UDP协议作用于传输层可以用来在设备之间建立连接,而在连接建立的过程中,设备之间是如何…

基于CNN卷积神经网络的口罩检测识别系统matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ............................................................ % 循环处理每张输入图像 for…

【实现Element表单区间输入框】

思路:两个输入框组合而成的,绑定的是数组的第一项和第二项、搭配自定义正则从而实现的区间输入框 效果 核心代码 页面部分传递给组件的数据上部分核心之外还需给组件一个默认值dataform: {interval: [],}, interval数组的第一项绑定的第一个区间&#…

selenium中处理验证码问题

验证码 基本作用:可以实现当前访问页面的数据安全性、还可以减少用户的并发数; 类型:1、纯数字、纯字母;2、汉字组合;3、数学运算题;4、滑动;5、图片(选不同的、选相同、成语顺序&…

SpringBoot + Vue 前后端分离项目 微人事(九)

职位管理后端接口设计 在controller包里面新建system包,再在system包里面新建basic包,再在basic包里面创建PositionController类,在定义PositionController类的接口的时候,一定要与数据库的menu中的url地址到一致,不然…

剑指 Offer 40. 最小的k个数(C+实现)

剑指 Offer 40. 最小的k个数https://leetcode.cn/problems/zui-xiao-de-kge-shu-lcof/ 法1&#xff1a;二叉堆 通过最小堆&#xff0c;直接筛选出最小的k个数 vector<int> getLeastNumbers(vector<int>& arr, int k) {priority_queue<int, vector<int>…

深信服 SG上网优化管理系统 catjs.php 任意文件读取漏洞[2023-HW]

深信服 SG上网优化管理系统 catjs.php 任意文件读取漏洞 一、漏洞描述二、漏洞影响三、网络测绘四、漏洞复现小龙POC检测: 五、 修复建议 免责声明&#xff1a;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间…

中间件的介绍

1.1 什么是中间件 中间件是介于应用系统和系统软件之间的一类软件&#xff0c;他使用系统软件所提供的基础服务&#xff0c;衔接网络上应用系统的各个部分或不同的应用&#xff0c;能够达到资源共享、功能共享的目的。 例如MySQL就可以看作是具备中间件特性的一种技术&#x…

LLaMA模型泄露 Meta成最大受益者

一份被意外泄露的谷歌内部文件&#xff0c;将Meta的LLaMA大模型“非故意开源”事件再次推到大众面前。“泄密文件”的作者据悉是谷歌内部的一位研究员&#xff0c;他大胆指出&#xff0c;开源力量正在填平OpenAI与谷歌等大模型巨头们数年来筑起的护城河&#xff0c;而最大的受益…

CG MAGIC分享为什么使用3d Max渲染,呈现白蒙蒙的?

使用3d Max渲染&#xff0c;有小伙伴反映&#xff0c;为什么渲染过程中&#xff0c;max渲染&#xff0c;总是出现白蒙蒙的的效果呢&#xff1f; 渲染出这白白一片是什么原因导致的呢&#xff1f; 想要解决的朋友&#xff0c;点进来&#xff0c;看看CG MAGIC小编整理的解决方法…

阿里云使用WordPress搭建个人博客

手把手教你使用阿里云服务器搭建个人博客 一、免费创建服务器实例 1.1 点击试用 点击试用会需要你创建服务器实例&#xff0c;直接选择默认的操作系统即可&#xff0c;点击下一步 1.2 修改服务器账号密码 二、创建云数据库实例 2.1 免费获取云数据库使用 2.2 实例列表页 在…

嵌入式学习之选票系统

今天是值得高兴的一天&#xff0c;今天我在咸鱼上面买了一个显示屏回来&#xff0c;这块27寸的显示屏用起来还有一点不习惯&#xff0c;在坐地铁的时候&#xff0c;我是小心又小心&#xff0c;非常害怕把它去弄坏了&#xff0c;回来安装好后&#xff0c;吃了晚饭&#xff0c;看…

jmeter-results-detail-report_new.xsl文件设置dateReport

<!-- Defined parameters (overrideable) <td bgcolor"#ff00ff"> --> <xsl:param name"showData" select"y"/> <xsl:param name"titleReport" select"测试报告"/> <xsl:param name&…

day-24 代码随想录算法训练营(19)回溯part01

77.组合 思路一&#xff1a;回溯相当于枚举&#xff0c;所以我们遍历1-n的每一个数字&#xff0c;然后在遍历第i位的同时递归出第i1~n位的组合结果&#xff0c;跟树的形式相似。 如上图所示&#xff0c;当长度为k时&#xff0c;即退出递归可对遍历到第i位以及剩下位数与k进行比…

耕地单目标语义分割实践——Pytorch网络过程实现理解

一、卷积操作 &#xff08;一&#xff09;普通卷积&#xff08;Convolution&#xff09; &#xff08;二&#xff09;空洞卷积&#xff08;Atrous Convolution&#xff09; 根据空洞卷积的定义&#xff0c;显然可以意识到空洞卷积可以提取到同一输入的不同尺度下的特征图&…