可视化数据科学平台在信贷领域应用系列三:特征组合

news2024/11/24 19:16:22

现代各企业都提倡“降本增效”,所以越来越多优秀的工具诞生了。若想在特征加工这块工作上提升效率,建模人员也能有更多时间“偷懒”,都 “Sora”时代了,为啥不巧用工具呢?RapidMiner在信贷风控特征加工组合中是一把利器!

第一,从银行信贷风控建模工作角度看,这个工具的可应用场景比较广泛,解决了日常的业务需求工作的标准化问题。比如,通过RapidMiner的GENERATE模块,可在多个业务场景中辅助信贷风控从业人员解决实际应用问题,RapidMiner可在如下几个涉及特征加工和特征组合的业务应用场景提升工作效能:

1. 构建客群细分变量,辅助精细化客群分析;

2. 构建组合决策变量,形成策略规则;

3. 非结构化数据转换挖掘,尤其是文本类和日期类数据;

4. 特征组合挖掘,融合业务理解,挖掘衍生特征。

第二,RM非常简洁的界面,让操作无比高效,新手上手操作无负担。比如,特征加工组合工作中,由于RapidMiner将丰富的算子进行了科学归类,使用者可快速找到所需算子,拖拉式操作更是简明易上手,公式区域语法高亮也方便使用者阅读验证等。市面上这么多建模工具,能做到保持功能完整符合日常需求,同时又保证操作界面简洁、逻辑不复杂的产品少之又少,Altair RapidMiner是其中一款。

—— 国内知名互联网银行   信贷风险建模专家

欢迎继续关注 Altair 的金融信贷风控算法模型系列文章第三篇。在前两篇中,国内知名互联网银行零售信贷风险建模专家分享了他在数据探索和数据清洗的十多年心得经验,收到诸多业内同仁的好评。今天,这位建模专家再次和大家分享他在数据的特征加工心得。

01什么是“特征加工组合”?

特征加工组合涵盖了特征加工与特征组合。在机器学习中,特征加工组合是指基于数据集中现有的一个、两个或多个原始特征来创建新的特征。这有助于模型一方面更好地捕捉特征之间的关系,另一方面挖掘更丰富的信息,从而提高模型的性能。特征加工组合通常分为三类:特征变换、特征交叉组合和多项式特征组合。

特征变换通常是指针对单个原始特征进行变换或计算。例如,判断一列地址文本数据中是否包含“村、屯、组、庄”等字符,加工得到乡村倾向地址特征。

特征交叉组合是将两个或多个特征的取值进行组合。例如,如果有两个特征分别是“性别”和“婚姻状态”,通过将它们交叉,可以创建一个新的特征,表示“性别-婚姻状态”的细分变量。

多项式特征组合是对原始特征进行幂的组合。例如,对于特征χ,通过创建χ、χ等,可以引入非线性关系。

特征加工组合的目的是增加模型的表达能力,使其能够更好地适应数据。它在处理非线性关系、交互效应等方面非常有用。然而,需要小心选择合适的加工和组合方式,因为过于复杂的组合可能导致过拟合。

在进行特征组合时,通常需要结合领域知识和模型的反馈,以确保创建的新特征对于模型的性能提升是有效的。在信贷风控领域,进行特征加工和特征组合时,会兼顾加工和组合特征的区分度效果和稳定性,并关注其业务解释性。

02RapidMiner中Turbo Prep看板下的GENERATE模块

图片

图1 GENERATE模块函数库支持的函数算子

如图1,为进入GENERATE模块后的交互界面,各功能区域分布清晰合理。左侧边栏为原有数据列,右侧部分是函数算子和常量对象,中部上方为加工生成区域,中部下方为可实时更新的数据预览区域。

(1)函数库Functions

图片

图2 GENERATE模块函数库支持的函数算子

我们首先来看一下RapidMiner的GENERATE模块强大函数库所支持的丰富算子。如图2,我根据函数算子的功能将全部函数算子进行了分类:基础函数、数学函数、文本函数以及其他函数。整体函数库可以用“全面、丰富、特色”来评价,“全面”是指函数类别全面、“丰富”是指函数算子功能丰富、“特色”则是指如表达式转换的算子。

基础函数涵盖了基础运算算子、逻辑运算算子、比较算子、位运算算子、舍入函数算子和转换函数算子。其中,Conversion Functions-转换函数算子包含了面向不同格式数据的转换算子,包括普通数值列与字符串格式数值的相互转换、日期格式数据与字符串格式日期数据的双向格式化解析转换。

数学函数包括数学函数算子、统计函数算子和三角函数算子。数学函数算子可实现开方、幂次方、对数、取绝对值基本数学运算,统计函数算子涵盖了均值、最值、求和等聚合函数。

文本类函数主要包括文本信息算子和文本变换算子。对于非结构化的文本数据,RapidMiner提供了优秀的解决方案。文本信息算子为针对文本数据的基础函数算子,诸如字符串比对、字符转匹配、字符串逻辑判断、字符串查找等均为数据科学从业者们实现。文本变换算子则侧重对文本数据进行操作和修改,如文本截断、文本替换、文本拼接、字符提取、文本清洗等功能算子。

其他函数中的日期计算算子实现了对日期数据的相关功能,如日期推移、日期差分、时间单位换算等。

(2)常量值Constants

Constants为RapidMiner提供的数据科学领域的常用常量对象,方便设计开发新特征时直接引用使用。

02GENERATE 模块实操特征加工和组合

下面我们使用GENERATE模块在UCI台湾信用卡数据集上来实操一下特征加工和组合工作。

如《可视化数据科学平台在信贷领域应用系列一:数据探索》所介绍,BILL_AMT1 ~ BILL _ AMT6分别为2005年9月至2005年4月每月的账单金额,PAY _ AMT1~PAY _ AMT6 分别为2005年9月至2005年4月每月的付款金额。于是我们便可加工以上每个月份的账单还款比例特征,即“付款金额”除以“账单金额”。如图3所示,填写新生成特征列名称“PAY _ Rate1”,将对应的数据列拖至 Formula 操作区,将基础运算算子中的“除号”也拖至操作区,形成公式“[PAY _ AMT1] / [BILL _ AMT1]”,更新数据预览后则显示了加工后的特征的预览结果。确认无误后,则可将新生成特征列提交(COMMIT)正式添加进数据集中。

图片

图3 账单还款比例加工逻辑

综合 BILL _ AMT1~BILL_AMT6,定义公式:

[BILL _ AMT6]([BILL _ AMT1]+[BILL _ AMT2]+[BILL _ AMT3]+[BILL _ AMT4]+[BILL _ AMT5]+[BILL _ AMT6])”,则加工得到了特征“最近一月账单金额占最近六月账单金额总和比例”,表征了用户的近期信用卡消费趋势。类似的可加工得到特征“最近一月还款金额占最近六月还款金额总和比例”,这两类趋势特征均与目标变量还款违约有较强的相关性。

又如我希望加工一个客群细分变量“大龄(35岁以上)未婚男性”,定义公式“ ( [AGE] > 35) && ( [ MARRIAGE ] == 2 ) && ( [SEX] == 1 )”,则加工得到了标签。

此外,对于UCI台湾信用卡数据集中存在时间序列型数据,如多个月份的账单金额和付款金额数据,还可以通过计算标准差来描述客户对应指标的波动率,进而评估客户的稳定性。

综上,借助RapidMiner的GENERATE模块,可加工得到更加丰富的数据特征,扩大数据维度,提升模型精准度,同时丰富的特征好标签指标也为策略设计提供了便利。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图像算法---自动曝光AE

一,自动曝光AE 自动曝光(AE,全称Auto Exposure)是一种在摄影和摄像中广泛使用的技术,它允许相机或摄像机根据环境光线条件自动调整曝光参数,以获得清晰、亮度适中的图像或视频。以下是关于自动曝光AE的详细…

LabVIEW的大气环境实时监测

LabVIEW的大气环境实时监测 设计并实现了一个基于LabVIEW的大气环境实时监测系统。通过使用高精度环境传感器采集温度、湿度、PM2.5、CO2等环境数据,利用LabVIEW进行数据处理、显示和存储。该系统能够实时监控环境参数,并通过阈值报警功能提示异常&…

60万路由器一夜瘫痪,美国遭遇神秘网络攻击大灾难;木马肆虐俄罗斯,关键信息基础设施惨遭毒手!Oracle漏洞被利用,CISA紧急行动!| 安全周报0606

新闻1:欧洲警报:俄GRU支持APT28发动HeadLace恶意软件攻击! 俄罗斯GRU支持的威胁行为者APT28被认为在一系列活动中负责,这些活动使用HeadLace恶意软件和收集凭证的网页针对欧洲各地的网络。 APT28,也被称为BlueDelta、…

springboot undertow 文件上传文件过大异常

io.undertow.server.RequestTooBigException: UT000020 Connection terminated as request was larger than xxxx 修改yaml文件中关于undertow的配置项 server:undertow:# HTTP POST请求最大的大小# 默认0,无限制max-http-post-size: ${SERVER_UNDERTOW_MAX_HTTP_…

比较FITC-BSA与未标记BSA在生物活性方面的差异

牛血清白蛋白(BSA)作为一种诸多使用的生物化学试剂,在生物学和医学领域发挥着作用。然而,为了研究BSA在生物体内的行为以及与其他分子的相互作用,科学家们常常需要对其进行荧光标记,其中FITC-BSA便是常见的…

WEB-Wordlist-Generator:为扫描后的Web应用生成相关联的字典

关于WEB-Wordlist-Generator WEB-Wordlist-Generator是一款功能强大的字典生成工具,该工具旨在帮助广大研究人员扫描目标Web应用程序并生成与之相关联的字典文件,从而允许我们对相关的网络威胁行为执行预备性应对策略。 功能介绍 当前版本的WEB-Wordli…

vue页面上的form表单无法输入咋回事?

记录工作中遇到的问题… 如下图:下拉框选中无法回显,输入框无法输入 排查了原因,原来是接收的formData不是响应式的 const props defineProps({formData: {type: Object,default: ()> [{devices:[]}]},})formData将其放在模板中使用&am…

揭秘APP广告投放数据背后的秘密,Xinstall助你精准触达用户!

随着互联网的发展,App推广和运营的环境也在不断变化。传统的营销方式已难以满足多变的市场需求,如何确保在激烈的竞争中脱颖而出,成为了众多企业关注的焦点。Xinstall作为一款专业的App推广工具,致力于帮助企业解决推广和运营中的…

Linux网络服务之SSH(远程访问及控制)

ssh远程管理: ssh是一种安全通道协议,用来实现字符界面的远程登录。远程复制,远程文本传输。 ssh对通信双方的数据进行了加密 用户名和密码登录 密钥对认证方式(可以实现免密登录) ssh 22 网络层 传输层 数据传输…

解锁AI大模型的无限潜能:程序员如何深度驾驭这一科技巨轮

前言 随着科技的飞速发展,人工智能(AI)已经不再是科幻电影中的遥远概念,而是成为了推动社会进步的重要引擎。在AI的众多技术分支中,大模型以其卓越的性能和广泛的应用前景,成为了科技领域的明星技术。作为…

Transformer学习(2)

这是Transformer的第二篇文章,上篇文章中我们了解了分词算法BPE,本文我们继续了解Transformer中的位置编码和核心模块——多头注意力。下篇文章就可以实现完整的Transformer架构。 位置编码 我们首先根据BPE算法得到文本切分后的子词标记,然…

[消息队列 Kafka] Kafka 架构组件及其特性(一)

工作中的消息队列用的是Kafka,一直没有系统的了解,这边集中整理一下。 目录 Kafka主要组件有十个部分。 1.Broker(服务器) 2.Record(消息) 3.Producer(生产者) 4.Consumer&…

C++---模板进阶(非类型模板参数,模板的特化,模板分离编译)

我们都学习和使用过模板,而这篇文章我们来将一些更深入的知识。在此之前,我们在使用C编程时可以看到模板是随处可见的,它能支持泛型编程。模板包括函数模板和类模板,我们有的人可能会说是模板函数和模板类,但严格讲这样…

【Python】把xmind转换为指定格式txt文本

人工智能训练通常需要使用文本格式,xmind作为一种常规格式不好进行解析,那如何把xmind转换为txt格式呢? 软件信息 python python -v Python 3.9.13 (tags/v3.9.13:6de2ca5, May 17 2022, 16:36:42) [MSC v.1929 64 bit (AMD64)] on win32…

集成学习笔记

集成学习 简介 决策树 GBDT 拟合残差 一般 GBDT XGBOOST 弓 1 能表达样本落入的子节点,但是不能把表示结构 2 3.正则项 – 惩罚 防止过拟合,比如一个值总共有10颗树都是由同一颗树决定的,过拟合 5 找到一种方式不依赖于损失函数 …

【Modelground】个人AI产品MVP迭代平台(3)——工程化架构设计

文章目录 背景monorepo多项目调试/打包公共静态资源服务公共模型拷贝入项目的public文件夹总结 背景 Modelground中的项目,基本都依赖Mediapipe模型,因此,有很强的需要对Mediapipe进行封装,其余项目都调用这个封装库。从架构上&a…

文字生成视频!又一王炸!!!(且免费使用!)

VIVA王炸 开场 “ 生成令人惊叹的AI视频,再加上4K视频增强和初学者友好的自动提示优化,为您提供无与伦比的视频创作体验。” 直抒胸臆 自从sora的出现,开启了人工智能的有一个阶段。VIVA是现在唯数不多的与OpenAI的sora互相抗衡。也是为数…

Orange Pi AI Pro 开箱 记录

香橙派 AIpro(OrangePi AIpro)是一款面向AI开发的强大开发板,提供了高性能和多功能的开发环境。我将结合自己的开发经验,详细介绍这款开发板的性能、适用场景及使用体验。 一、产品概述 香橙派 AIpro配备了强大的硬件配置&#…

String类知识

目录 一、String存在意义 二、字符串为何不可变 三、String类常用方法 1、字符串构造 2、String对象的比较 3、字符串查找 4、转化 (1)数值和字符转化 (2)大小写转换 (3)字符串转数组 (4&…

不同类型红酒的保存期限与品质变化

云仓酒庄雷盛红酒,以其多样的品种和与众不同的风味吸引了无数葡萄酒爱好者。然而,不同类型和风格的红酒在保存过程中,其期限和品质变化也各不相同。本文将深入探讨这个问题,以帮助消费者更好地理解和欣赏云仓酒庄雷盛红酒的多样性…