专利复现_基于ngboost和SHAP值可解释预测方法

news2024/11/15 7:18:34

大家好,我是重庆未来之智的Toby老师,最近看到一篇专利,名称是《基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法》。该专利申请工日是2021年3月2日。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

专利复现

我看了这专利申请文案后,文章整体布局和文字内容结构不错,就是创新点半天找不到。我们公司之前申请专利至少还有算法创新点,不由感叹现在专利局审核尺度也太松弛了。

ngboost是2019年出来的算法,SHAP是博弈论中经典算法。两者组合还算不错,今天就为大家复现基于ngboost和SHAP值可解释预测方法。

NGboost概述

NGBoost(Natural Gradient Boosting)是一种基于梯度提升框架的集成学习算法,它通过自然梯度优化来更新模型参数。NGBoost结合了梯度提升决策树(GBDT)的预测能力与自然梯度的优化优势,尤其在处理高维数据和复杂模型时表现出色。

斯坦福 ML Group最近在他们的论文 Duan et al., 2019 中发表了一种新算法,其实现称为 NGBoost。该算法通过使用自然梯度将不确定性估计包括在梯度提升中。这篇文章试图理解这个新算法,并与其他流行的增强算法 LightGBM 和 XGboost 进行比较,看看它在实践中是如何工作的。

斯坦福ngboost官网如下
https://stanfordmlgroup.github.io/projects/ngboost/

图片

自然梯度使学习高效且有效

什么是自然梯度提升?

NGBoost 是一种新的提升算法,它使用自然梯度提升,一种用于概率预测的模块化提升算法。该算法由基学习器、参数概率分布和评分规则组成。

图片

图片

普通梯度可能非常不适合学习多参数概率分布(例如正态分布)。如上面的概率回归示例所示,使用自然梯度的训练动态往往更加稳定并产生更好的拟合。

在不确定性估计和传统指标方面的竞争表现

与竞争方法相比,NGBoost 所需的专业知识要少得多,并且在常见的基准测试中表现同样出色。NGBoost 在较小的数据集上具有特别强的性能。

图片

在一个回归模型的实验中,我们发现ngboost获得更低的rmse.

图片

SHAP概述


SHAP(SHapley Additive exPlanations)是一种解释机器学习模型预测的方法,它基于博弈论中的Shapley值概念。SHAP值提供了一种公平的方法来量化每个特征对模型预测结果的贡献。以下是SHAP的关键特点和概述:

  1. 基于Shapley值

    • SHAP值基于Shapley值,这是一种在合作游戏中分配支付的标准方法,确保每个玩家(在这里是特征)获得其“公平”的份额。

  2. 可解释性

    • SHAP值提供了一种直观的方式来理解模型的预测,通过分解预测结果并将其归因于各个特征。

  3. 特征贡献度量

    • 对于给定的预测,SHAP值可以量化每个特征对预测结果的正面或负面影响。

  4. 一致性和公平性

    • SHAP值满足一致性、公平性等博弈论的公理,确保了特征贡献的合理分配。

  5. 多种模型支持

    • SHAP可以解释多种类型的机器学习模型,包括决策树、随机森林、梯度提升机、线性模型、深度神经网络等。

  6. 可视化工具

    • SHAP提供了丰富的可视化工具,如力导向图(force plot)和汇总图(summary plot),帮助用户直观地理解模型预测。

  7. Python实现

    • SHAP有Python库支持,可以方便地集成到现有的Python机器学习工作流程中。

  8. 交互式解释

    • SHAP值的计算可以是交互式的,允许用户探索不同特征组合对模型预测的影响。

  9. 适用于复杂模型

    • 尽管SHAP值的计算对于复杂的模型可能很耗时,但它提供了一种强大的方法来解释这些模型的决策过程。

  10. 理论和实践结合

    • SHAP结合了理论基础和实际应用,使得即使是非技术背景的用户也能够理解模型的工作原理。

  11. 开源和社区支持

    • SHAP是一个开源项目,得到了数据科学和机器学习社区的广泛支持。

SHAP值是解释机器学习模型的重要工具,尤其适用于需要模型透明度和可解释性的场景。通过SHAP值,研究人员和实践者可以更好地理解模型的行为,提高模型的信任度,并做出更明智的决策。

专利复现-基于ngboost和SHAP值可解释预测方法

前期理论知识给大家说清楚了,现在Toby老师用15万真实金融风控数据来复现基于ngboost和SHAP值可解释预测方法。下图是建模数据集,模型通过喂养数据,训练数据,最终生成具有预测能力的AI大模型。

图片

下图是我方已经建立好ngboost预测模型。

图片

下图是我方计算的SHAP values值。

图片

通过SHAP values值,我们计算变量重要性,并从大到小排序。如下图,SHAP+ngboost分析得出Revolving Utilization of Unsecured Lines变量是最重要变量。

"Revolving Utilization of Unsecured Lines"(未担保循环信用额度的使用率)是一个金融术语,通常用于个人信用报告和信贷分析中。它指的是借款人在循环信用账户(如信用卡)上使用的信用额度与可获得的总信用额度的比例。

该变量计算公式=(当期未偿还余额 / 信用额度上限) * 100%。

Revolving Utilization of Unsecured Lines对信用评分有重要影响:

该变量高使用率可能会对个人的信用评分产生负面影响,因为这表明借款人可能面临较高的财务压力。

金融机构和贷款人使用这一指标来评估借款人的信用风险。较高的使用率可能表明借款人依赖信贷来维持消费,这可能增加违约风险。

借款人可以通过降低使用率来提高信用评分,例如通过支付下账单或要求提高信用额度。

图片

SHAP除了横向比较变量重要性,还可以纵向分析变量解释性。如下图,Revolving Utilization of Unsecured Lines值越高,SHAP值越高,违约风险也相应提高,反之亦然。age年龄分析得到相反结论,年龄越小信用风险越高,反之亦然。

图片

如果是金融小白不懂风控,不懂编程,不懂金融,不懂业务,没时间学习没有关系。重庆未来之智信息技术咨询服务有限公司帮助用户设计好零基础操作界面。审批人员无需风控建模知识,无需编程知识,只需要输入用户信息,鼠标点击预测,工具就为显示预测结果。接下来为大家展示。

图片

该功能对小白友好,可以增强该专利的功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2098979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++修炼之路之C++11

目录 一:使用列表初始化 二:decltype和nullptr 三:右值引用和移动语义 四:新的类功能 五:可变参数模板 六:lambda表达式 七:包装器 1.function包装器 2.bind包装器 接下来的日子会顺…

《深度学习》OpenCV 图像轮廓检测、轮廓处理及代码演示

目录 一、图像轮廓检测 1、边缘检测和轮廓检测 2、常用的图像轮廓检测方法包括: 1)基于梯度的方法 2)基于边缘检测器的方法 3)基于阈值的方法 3、查找轮廓的函数 4、轮廓的绘制 5、轮廓特征 1)轮廓面积 2&a…

呵,老板不过如此,SQL还是得看我

2018年7月,大三暑假进行时,时间过得飞快,我到这边实习都已经一个月了。 我在没工作之前,我老是觉得生产项目的代码跟我平时自学练的会有很大的区别。 以为生产项目代码啥的都会规范很多,比如在接口上会做很多安全性的…

自己开发完整项目一、登录功能-05(动态权限控制)

一、上节回顾 在上一节中,我们介绍了如何通过数据库查询用户的权限,并对方法级别的接口使用注解的方式进行权限控制,之后通过用户携带的tocken进行解析权限,判断是否可以访问。 具体步骤: 1.在查询用户信息的时候将用户…

神经网络中激活函数介绍、优缺点分析

本文主要介绍神经网络中的常用的激活函数 激活函数是神经网络中用于引入非线性模型,提升模型泛化能力的函数 非线性激活函数至关重要,它可以让神经网络学习复杂特征、提供模型复杂度 1、激活函数定义 激活函数是神经网络模型中的一种非线性函数&#xf…

教学能力知识

第一章课程理论知识 一、课程理念 二、课程目标 1.核心素养 2.课程总目标 三、教学建议 四、教学环节 第二章教学实施 第一节导入新课类 二.导入方法 第二节教学方法类 教学方法的选择依据 第三节教法实施原则类 设计意图 第四节设计意图类 1.教学目标 2.教学重难点 3.教学…

【安当产品应用案例100集】014-使用安当TDE实现达梦数据库实例文件的透明加密存储

随着数据安全重要性的不断提升,数据库文件的落盘加密已成为数据保护的一项基本要求。达梦数据库作为一款高性能的国产数据库管理系统,为用户提供了一种高效、安全的数据存储解决方案。本文将详细介绍如何利用安当KSP密钥管理平台及TDE透明加密组件来实现…

[数据集][目标检测]灭火器检测数据集VOC+YOLO格式3255张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3255 标注数量(xml文件个数):3255 标注数量(txt文件个数):3255 标注…

c++多线程下崩溃一例分析 ACTIONABLE_HEAP_CORRUPTION heap failure block not busy DOUBLE

之前的三个代码接口使用了同一把锁,共享资源的访问是有序执行的没有问题。最近改成各个接口使用单独的锁,结果漏掉了共享资源的保护,于是出现了崩溃。最近与这个崩溃做斗争并定位找到的原因,成功复现了。这里总结下,后…

[YM]课设-C#-WebApi-Vue-员工管理系统 (六)前后端交互

Http状态码: 终于也是到了前端 上文提到http状态码 这里详细说一下 1xx 表示临时响应并需要请求者继续执行操作 2xx 成功,操作被成功接收并处理 3xx 表示要完成请求,需要进一步操作。 通常,这些状态代码用来重定向 4…

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载

LiveQing视频点播流媒体RTMP推流服务用户手册-分屏展示:单分屏、四分屏、九分屏、十六分屏、轮巡播放、分组管理、记录加载 1、分屏展示1.1、分组管理1.1.1、新建分组1.1.2、选择资源1.1.3、编辑分组1.1.4、删除资源 1.2、多分屏1.2.1、选择资源1.2.2、单分屏1.2.3、四分屏1.2.…

【多模态大模型】的正确打开方式——图片

早期痛点 识别图片中的物体,早期可以使用Yolo 但是缺点也很明显: 训练时间长成本高泛华性能差通用识别领域覆盖有限 优点: 特殊领域识别 大模型出现 大模型出现后,一些大模型对接了图片识别相关的模型,实现了图片…

利用衍射进行材料分析--Muad

软件介绍 MAUD是一款免费软件,使用组合 Rietveld 方法分析衍射数据。其功能不仅限于衍射,还包括荧光和反射率。 它可以分析来自 X 射线源以及中子、TOF 和 TEM 电子的数据。相含量和晶体结构、微观结构特征(如尺寸和应变)、晶体…

沉浸式体验亚马逊云科技上私有化部署零一万物AI大模型

小李哥将继续带大家沉浸式体验亚马逊云科技上的国产AI大模型。最近亚马逊云科技的机器学习模型管理平台Amazon SageMaker JumpStart 上线了由零一万物提供的基础模型 Yi-1.5 6B/9B/34B,这也是首批登陆中国区 Amazon SageMaker JumpStart 的中文基础模型,…

【多线程】并发编程wait和sleep的区别

notyfy、notifyAll、wait的使用:sleep/wait/notify/notifyAll分别有什么作用 背景:之前的博客讲解到了notify的使用,那并发编程的时候,到底该用 sleep还是notify呢?本篇我们来一起梳理一下区别 所属类与方法类型 wait…

vscode+django开发后端快速测试接口(轻量版,免postman安装)

目录 背景 步骤 安装插件 编写测试文件 示例一:get接口类型 示例二:post接口类型 示例三:delete接口类型 如何运行test.http测试文件 背景 在最近工作中涉及到使用Django框架开发后端,写完接口后,不可避免需要…

php法律事务综合管理系统Java律师事务所业务流程管理平台python法律服务与案件管理系统(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

Java八股文总结一

Java基础 一、JDK、JRE、JVM之间的关系? 1、JDK(Java Development Kit):Java开发工具包,提供给Java程序员使用,包含了JRE,同时还包含了编译器javac与自带的调试工具Jconsole、jstack等。 2、JRE(Java Runtime Environment):Ja…

蔡司小乐圆镜片:自由环面与微柱镜排布助力兼顾舒适与效果

从学习到休闲娱乐,孩子们的日常生活已与电子设备密不可分,视力面临日益严峻的挑战。为了让孩子拥有全视野清晰视觉体验的同时,更有效管理孩子的近视发展,让孩子佩戴蔡司小乐圆镜片,也成为不少家长的首选。 数据统计&am…

opencv图像形态学(边缘检测算法实例)

引言 图像形态学是一种基于数学形态学的图像处理技术,它主要用于分析和修改图像的形状和结构。在OpenCV中,图像形态学操作通过一系列的数学运算来实现,如腐蚀、膨胀、开运算、闭运算等。这些操作在图像处理、计算机视觉和模式识别等领域有着…