可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)

news2024/11/22 22:20:26

在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数据预处理、特征工程、模型选择、模型训练、模型评估与模型部署等环节自动化,极大地提升了模型开发迭代的效率,并在一定程度上规避了人工操作风险。

在《可视化数据科学平台在信贷领域应用系列六:自动机器学习(上篇)》中,我们对自动机器学习(AutoML)的概念、优势以及在信贷风控中的应用进行了详细介绍。在本篇《可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)》中,我们将聚焦于RapidMiner(AI Studio)这款领先的数据科学和机器学习平台深入探讨其自动机器学习方面的特色功能,并通过实验数据实操演示RapidMiner(AI Studio)强大的自动机器学习特色功能。

1、RapidMiner(AI Studio)支持了哪些自动机器学习模块?

RapidMiner(AI Studio)作为一款功能强大的数据科学和机器学习平台,在AutoML方面的功能尤为突出。如我们前序文章所介绍,RapidMiner(AI Studio)在多个机器学习建模分析环节展示了其自动化和智能化的优势:

  • 《系列一:数据探索》中介绍了RapidMiner(AI Studio)在数据探索环节的自动化特性。在选定待分析数据后,用户仅需设定必要的标签字段,RapidMiner(AI Studio)便可自动化地完成数据探索过程,包括缺失率、极限值占比等数据质量分析指标,最值、标准差等数理统计信息,以及变量分布图,自动化程度高、统计维度全面。
     

  • 《系列二:数据清洗》中介绍的自动清洗(AUTO CLEANSING)模块可以自动对数据集执行数据清理操作,自动化地完成数据清洗工作,为机器学习建模做好数据准备。
     

  • 《系列四:决策树策略挖掘》中介绍的RapidMiner(AI Studio)的Interactive Analysis模块具备高度自动化,仅通过两个参数设置步骤即可完成决策树自动化生成,高效助力组合规则策略发现。

RapidMiner(AI Studio)全面的自动化功能不仅覆盖了数据收集与预处理、数据探索分析、数据清洗等数据分析与模型开发前序准备环节,对模型开发全周期流程的自动化支持更是堪称强大,下面让我们来见识一下RapidMiner(AI Studio)强大的自动机器学习模块——Auto Model。

图片

图1 Auto Model

2、RapidMiner(AI Studio)自动机器学习模块Auto Model

如图2,我们启动Auto Model模块后所见,用户可以直观了解到Auto Model模块的自动机器学习主要流程环节,加载数据、选择任务、设置目标变量、筛选入模特征、选择算法类型,最终得到整个自动机器学习全过程的分析报告和模型评估结果。

图片

图2 Auto Model主要流程

首个环节,“Load Data”加载数据集,我们依然加载UCI台湾信用卡数据集进行实验。

第二个环节,“Select Task”选择本次学习任务的类型。如图3,RapidMiner(AI Studio)支持丰富的学习任务类型,包括预测(Predict)、聚类(Clusters)和异常检测(Outliers),这些任务在信贷风控、市场分析、欺诈检测等领域都有广泛的应用。

图片

图3 选择学习任务类型

  • 预测(Predict),预测任务主要涉及对特定目标进行预测,RapidMiner(AI Studio)在预测任务中提供了丰富的工具和算法,支持回归和分类两种预测类型。常见应用场景包括收入评估预测、违约概率预测和高价值客户分类等。
     

  • 聚类(Clusters),聚类任务旨在将样本聚合为若干组,使得组内样本相似度高,组间样本相似度低。聚类在市场细分、客户群体分析等方面有重要应用。
     

  • 异常检测(Outliers),异常检测用于识别数据中的异常或离群点,广泛应用于信贷反欺诈检测以及客户行为预警监测等场景。

回到我们的UCI台湾信用卡数据集,其学习目标是预测客户下个月的还款违约情况,所以这里我们选择“Predict预测”任务,随后设定要预测的目标变量,即“default.payment.next.month”,下一步就进入到“Prepare Target”环节,对目标变量进行设置。

图片

图4 Prepare Target

如图4,RapidMiner(AI Studio)会为我们统计并展示出我们所设定目标变量的统计分布图,RapidMiner(AI Studio)支持更多分类任务的参数设定,包括类别数量、类别划分方式(等距、等频)、配置类别误判权重、最关注类别等设置,为模型目标变量设置提供了极大灵活性,用户在分类任务尤其是多分类任务的目标变量设置中的体验十分友好。

在信贷风控模型开发场景,通常我们还会获取到目标变量的原始参考字段为客户的逾期天数(如首期逾期天数或历史最大逾期天数),通过RapidMiner(AI Studio)自动机器学习的目标变量设置模块即可灵活加工二分类或多分类模型预测标签。

图片

图5 Select Inputs

如图5,“Select Inputs”入模特征筛选环节较好的集成了Turbo Prep模块的良好使用体验。

图片

图6 Model Types

完成特入模征筛选后,则进入到“Model Types”模型选择环节。如图6,用户可以按照所要完成的机器学习任务场景和模型算法的特点,自主选择模型类型,接下来自动执行模型训练和对比过程。支持的算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升树、支持向量机、深度学习等算法。如图7,RapidMiner(AI Studio)同样具备日期类型和文本类型字段的特征衍生、自动化特征筛选和自动化特征生成等功能。

图片

图7 Data Preparation

自动学习训练的过程,任务进度、模型结果和评估结果可实时更新交互,用户可以随时查看和分析最新结果,用户体验显著提升。在自动机器学习过程执行完成以后,让我们来看一下自动机器学习全过程的分析报告和模型评估结果。

图片

图8 自动机器学习模型训练结果概览

如图8,最直观的感受即是全面且直观的横向对比,用户可以以较短的时间掌握不同模型在不同评价指标下的预测性能和执行时效及排序,快速便捷地做出决策。

RapidMiner(AI Studio)对入模特征间的相关性、树模型的分支结构、特征重要性排序、也有强大的统计分析、可视化展示和交互性体验:

  • 详细报告:生成详细的模型报告,包括各类评估指标、特征重要性和预测结果等。
     

  • 图表展示:多种可视化图表,如ROC曲线、混淆矩阵、特征重要性表、提升度曲线、特征影响模拟图等,帮助用户直观理解模型效果。
     

  • 交互式的可视化分析:交互式的可视化分析工具,让用户能够深入探索数据和模型运行逻辑,增强了互动体验。

3、RapidMiner(AI Studio) - Auto Model的优势与特色

  • 支持多种机器学习任务,包括但不限于分类、回归、聚类和异常检测。这些任务在不同领域中有广泛应用,能够满足用户多样化的需求。
     

  • 灵活的预测任务目标变量设置,便捷操作实现回归、二分类、多分类任务的目标变量加工,对多分类目标变量的加工更具特色,满足用户的个性化需求。
     

  • 提供了丰富的机器学习算法,涵盖了从传统统计方法到先进的深度学习技术,包括传统统计学习算法、集成学习算法、深度学习算法及无监督学习算法等。
     

  • 在保证高效率的自动化执行效率的前提下,用户仍保留必要的干预和控制空间,确保自动学习任务在用户的指引下进行。
     

  • 提供全面、直观的实验结果展示,帮助用户深入理解掌握模型性能。

随着数据的复杂性和多样性提高,外部经济环境不断变化,给模型开发工作带来了巨大挑战,对风险模型专家及策略分析专家提出了更高要求。RapidMiner(AI Studio)提供的智能化和自动化的功能模块,有效地简化和标准化了模型开发流程。

本篇文章就到这里啦,欢迎大家关注我们,查看往期内容~ 我们下期内容再见!


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎关注公众号:Altair RapidMiner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847408.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【linux】操作系统使用wget下载网络文件,内核tcpv4部分运行日志

打印日志代码及运行日志(多余日志被删除了些): 登录 - Gitee.comhttps://gitee.com/r77683962/linux-6.9.0/commit/55a53caa06c1472398fac30113c9731cb9e3b482 测试步骤和手段: 1、清空 kern.log; 2、使用wget 下载linux-6.9.tar.gz&…

芯片方案SIC88336血氧仪方案

血氧仪利用红外线光源照射患者手指末梢,在经过血液的时候,光线会被血液中的氧合血红蛋白和脱氧血红蛋白吸收。传感器感知到吸收的光强度变化,并将其转化为电信号发送给主机。主机通过处理这些信号,计算出血氧饱和度值,…

数字贸易变革:新模式、新机遇、新发展

树莓集团通过积极探索数字贸易的新模式和新机遇,不断推动数字贸易的发展和创新。未来,树莓集团将继续秉承开放、合作、共赢的理念,与全球优秀的企业和合作伙伴共同探索新的发展路径,为实现数字贸易的升级贡献一份力量。 一、数字贸…

使用ASP.NET Core封装接口请求参数格式

有些人获取接口请求参数是直接使用数据库实体类来获取的,这种方式虽然写起来很方便,但是会导致swagger接口文档出现很多没用的参数,让人看着不舒服。 比如,新增用户只需要传用户名、密码、邮箱就可以了,但是实体类也包…

C语言之顺序结构以及程序调试的debug宏

一:C语言中的顺序结构 1:最浅显的顺序结构理解:三种结构之一 (1)代码执行的时候没有遇到判断跳转或者循环,默认是顺序执行的。执行完上一句则开始执行下一句。 (2)顺序结构说明cpu的工作状态&a…

GD32学习

参考视频13.立创开发板GD32教程:串口配置_哔哩哔哩_bilibili 固件库跟用户手册基本上差不多,只不过用用户手册编写程序的话会更加的底层,固件库的话就是把一些函数封装起来,用的时候拿过来即可,目前我还没有找到固件库…

AI日报|我国人工智能核心产业规模已达5784亿元!阿里通义Qwen2成斯坦福大模型榜单最强开源模型!

⭐️搜索“可信AI进展“关注公众号,动手做AI Agent书籍,限量免费赠送!快来参与吧~ 文章链接: 福利来啦!动手做AI Agent书籍,限量免费赠送! 今日热点: 我国人工智能企业…

6.21 移动语义与智能指针

//先构造,再拷贝构造//利用"hello"这个字符串创建了一个临时对象//并复制给了s3//这一步实际上new了两次String s3 "hello"; 背景需求: 这个隐式创建的字符串出了该行就直接销毁掉,效率比较低 可以让_pstr指向这个空间…

AI赋能前端:你的Chrome 控制台需要AI(爱)

像会永生那样去学习,像明天就要死亡那样去生活。——圣雄甘地 大家好,我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder 此篇文章所涉及到的技术有 AI(Gemini)ChromeDevTool🪜魔法接码平台因为,行文字数所限,有些概念可能会一带而过亦或者提供对应的学习…

刘亦菲新剧玫瑰的故事

刘亦菲新剧《玫瑰的故事》:开放结局,无限遐想 当刘亦菲再次踏入荧屏,与导演汪俊携手打造的《玫瑰的故事》便引发了无数观众的期待与关注。这部剧不仅汇聚了众多实力派演员,更以其独特的剧情和精致的制作成为了近期热门的话题。《…

生成模型的两大代表:VAE和GAN

生成模型 给定数据集,希望生成模型产生与训练集同分布的新样本。对于训练数据服从\(p_{data}(x)\);对于产生样本服从\(p_{model}(x)\)。希望学到一个模型\(p_{model}(x)\)与\(p_{data}(x)\)尽可能接近。 这也是无监督学习中的一个核心问题——密度估计…

服装连锁实体店如何做好会员营销管理

在现代商业环境中,会员营销管理已经成为服装连锁实体店提升客户忠诚度和增加销售额的重要手段。随着消费者对个性化服务需求的不断增加,如何通过有效的会员营销管理来满足客户需求、提高客户满意度和增强品牌粘性,已经成为服装连锁实体店亟需…

FFmpeg源码:AV_RB32宏定义分析

一、AV_RB32宏定义的作用 AV_RB32是FFmpeg源码中经常出现的一个宏,其定义如下: #ifndef AV_RB32 # define AV_RB32(p) AV_RB(32, p) #endif 该宏定义有多层。把它简化为函数,其函数声明可以等价于: uint32_t AV_RB32(uint…

网络爬虫设置代理服务器

目录 1.获取代理 IP 2.设置代理 IP 3. 检测代理 IP 的有效性 4. 处理异常 如果希望在网络爬虫程序中使用代理服务器,就需要为网络爬虫程序设置代理服务器。 设置代理服务器一般分为获取代理 IP 、设置代理 IP 两步。接下来,分…

oracle报错ora-01691,如何扩大表空间大小

1.目的 解决oracle数据库表结构空间不足,导致客户端或服务端程序无法连接数据库;知悉 oralce提示ora-01691的查询分析语句及快速解决办法 2.解决办法 查询表结构容量空间以及扩大容量后进行查询验证 select b.file_id,b.tablespace_name,b.file_name,b…

智汇云舟成为中煤集团中煤智能创新联盟成员单位

6月21日,第八届世界智能产业博览会平行会议暨中煤智能创新联盟交流会在天津水游城丽筠酒店顺利举行。智汇云舟受邀参与,并由中国中煤能源集团授予荣誉证书,正式成为中煤智能创新联盟成员单位。会议上,清华大学、中国矿业大学&…

CAC 2.0融合智谱AI大模型,邮件安全新升级

在数字化时代,电子邮件的安全问题日益成为关注的焦点。Coremail CACTER邮件安全人工智能实验室(以下简称“CACTER AI实验室”)凭借其在邮件安全领域的深入研究与创新实践,不断推动技术进步。 此前,CACTER AI实验室已获…

揭秘Xinstall如何助力App推广,提升用户量与转化率双指标!

在移动互联网时代,App的推广与运营成为了每个开发者必须面对的重要课题。然而,推广效果的评估和优化往往令众多开发者头疼不已。今天,我们将为您揭秘一款能够解决这一痛点的利器——Xinstall,带您一起探讨它如何助力App推广&#…

基于单电阻采样的电流重构

1. 单电阻采样电流重构原理 图1(a)所示是电压型三相逆变器,定义三相开 关信号为 Sa 、Sb 、Sc 。当 Sa = 1 表示A相上桥臂导 通,下桥臂关断;Sa = 0 表示相反。三相逆变器采用 SVPWM调制方式控制,有8种开关工作状态,包括 6个非零电压矢量V1 ~ V6 和2个零电压矢量V0 、V7…

代码评审——Java占位符%n的处理

问题描述 在软件开发项目中,特别是在处理动态内容生成与呈现至前端界面的过程中,正确运用占位符以确保文本完整性和数据准确性显得尤为重要。不当的占位符管理不仅可能导致语法错误或逻辑混乱,还会引发一系列隐蔽的问题,这些问题…