可视化数据科学平台在信贷领域应用系列二:数据清洗

news2024/11/18 17:08:36

上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。

图片

首先,让我们一起来看下他的数据清洗心得,以及如何高效的利用工具完成数据清洗工作。认识“数据清洗”

为什么需要“数据清洗”?

在进行机器学习建模时,数据清洗是必不可少的步骤。数据清洗的目的是确保数据的准确性、完整性和一致性,提升数据集的数据质量,提高机器学习模型的性能。

数据清洗的必要性主要体现在以下两个方面:

  1. 正确有效的模型离不开数据清洗。数据中的缺失值、异常值和错误数据均会影响模型的准确性,甚至导致模型错误,数据质量是模型质量的基础保证。通过数据清洗步骤校正或排除这些数据,提升数据质量和可靠性,排除无效数据对模型造成的扰动,有效提升模型的泛化能力。

  2. 数据清洗可提高模型开发效率。数据中异常值和错误数据会导致模型开发的效率降低。正所谓“磨刀不误砍柴工”,完整的数据清洗工作有效提升后续特征衍生和模型开发的效率。

如何进行“数据清洗”?

数据清洗是建立可靠模型的关键步骤,它确保了模型在训练和应用阶段的准确性和稳定性。

数据清洗的主要步骤包括:

  1. 数据检查:首先要对数据进行检查,了解数据的总体情况,包括数据的类型、格式、完整性、集中度等。

  2. 数据转换:根据机器学习模型对训练数据的要求,对数据类型进行转换适配,例如将类别型数据转换为数值型数据或进行数值编码。

  3. 数据清理:基于数据检查的结果,对数据进行清理,包括缺失值、异常值、重复值、错误值。

利用RapidMiner 的Turbo Prep模块进行数据清洗

数据清洗是信用模型开发数据准备工作的重要内容。数据清洗工作的主要内容有以下几个方面。

  1. 我们从数据库提取的数据集通常会因为各种原因存在种种问题,应对特征值缺失、重复数据等错误数据进行修正或剔除,提升数据准确性。

  2. 数据集中的特征质量不一,存在高集中度、高相关性等问题,也应当在数据清洗环节对低质量特征进行排除。实践中,对于集中度超过95%、相关系数大于0.8的特征应当剔除。

  3. 为适配不同类型的模型,应当对特定类型的特征进行编码或转码。对于评分卡模型,应当对连续性特征进行离散化处理,又称“分箱”,离散化增强了特征的稳定性,提升了模型的泛化能力。而对于限定连续型特征入模的模型,则应将类别型特征进行编码,使之适配模型入模要求。

我们沿用上一节采用的UCI台湾信用卡数据集,数据检查工作我们已经在探索性数据分析一篇中完成,对数据集有了整体认识,也知晓了各特征列的特点。下面我们运用RapidMiner来实操数据转换和数据清理工作

01TRANSFORM 数据转换

首先看一下数据转换(TRANSFORM)模块所支持的操作,包括了重命名(RENAME)、改变类型(CHANGE TYPE)、删除(REMOVE)、拷贝(COPY)、筛选(FILTER)、范围截取(RANGE)、采样(SAMPLE)、排序(SORT)、替换(REPLACE)和拆分(SPLIT)。

应用数据转换(TRANSFORM)模块可实现数据集的灵活变换,融合多个基本操作的组合可完成更复杂的数据变换处理。

图片

图1:数据变换操作记录

例如,我们希望将性别为“1-男”的数据筛选出来,随机抽样2000条记录并按照年龄排序,将FILTER、SAMPLE、SORT组合运用即可。如图1,RM会将所有的操作记录储存下来,以便用户查看或进行回退操作。

实践中,基于数据检查和探索性分析的结果,我们可以借助数据转换(TRANSFORM)模块实现对数据表的加工变换,排除掉异常值和错误数据。

02CLEANSE  数据清洗

数据清洗(CLEANSE)支持对数据集进行多项清洗操作,包括移除低质量特征(REMOVE LOW QUALITY)、移除相关特征(REMOVE CORELATED)、缺失值填充(REPLACE MISSING)、标准化(NORMALIZATION)、离散化(DISCRETIZATION)、哑变量编码(DUMMY ENCODING),主成分分析(PCA)、去重(REMOVE DUPLICATES),涵盖了数据清洗的所有常规操作。

重点介绍一下自动清洗(AUTO CLEANSING),RapidMiner可以自动对数据集执行数据清理,自动化地完成数据清洗为机器学习建模做好准备,对新手用户或者业务人员十分友好。

图片

图2:自动清洗(AUTO CLEANSING)

如图2所示,仅需几个简单的操作步骤即可完成数据清洗。RapidMiner还提供了两种可能提高数值列质量的选项可供选择,主成分分析(PCA,Principal Component Analysis,一种通过将数据点映射到一个新空间来减少数据维数的方法)和归一化(通常有助于使所有列的范围大致相同,排除量纲对模型的影响)。

针对信贷风控建模,移除相关特征(REMOVE CORELATED)和离散化(DISCRETIZATION)这两个操作就必须要聊聊了。

移除相关特征,通常设定相关系数筛选阈值0.8,过滤掉高相关性特征中 iv 较低的特征。过滤高相关特征,可有效避免高相关特征在模型训练过程中耦合干扰,使开发的模型更加健壮,增强了模型的线上运行稳定性。

图片

图3 用户信用额度原始分布

图片

图4 用户信用额度分箱后分布

通过离散化(DISCRETIZATION)将连续型特征进行“分箱”操作,RM内置了“等距分箱”和“等频分箱”,用户可按需设定分箱箱数。如图3和图4,经过离散化操作,我们将特征“信用额度”从连续性特征“等距分10箱”得到了新的分组类别特征,增强了特征稳定性,排除了极端值和噪声值对模型的影响,增强了模型稳定性和泛化能力。

如何看待RapidMiner?

数据清洗是非标工作,但 Altair RapidMiner 在数据清洗过程中,能够很大的提效,有鲜明的优势特点:

  • 数据转换与清洗功能模块完备无论是在数据转换还是数据清洗模块中,RM所能够支持的基本操作十分完备,通过组合操作可完成数据清洗相关的工作内容,操作简洁灵活高效。

  • 自动化数据清洗:RapidMiner 的AUTO CLEANSING提供了极为简化的数据清洗自动化执行模块,非专业数据科学家亦可在RM的提示下快速完成数据清洗工作。


 若您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

一定不要错过6月20日面向工程师的全球人工智能线上会议“AI for Engineers”,

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1811757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是单片机?单片机的详解

单片机(Microcontroller Unit,简称 MCU)是一种集成了处理器、存储器、输入/输出接口和其他外设功能的微型计算机系统。它可以用于各种应用领域,如嵌入式系统、自动化控制、通信设备、家电、汽车电子等。 单片机的基本结构 以下是…

限流器设计思路(浅入门)

限流器(Rate Limiter)是一种用于控制系统资源利用率和质量的重要机制。它通过限制单位时间内可以执行的操作数量,从而防止系统过载和保护服务的可靠性。在程序设计中,可以使用多种方式来实现限流器,下面是几个常见方案的介绍: 令牌…

这三款很实用的工具,助你事半功倍!

AllDup——删除重复文件的工具 AllDup是一款用于删除电脑内重复文件的工具,避免重复占用电脑的存储空间,支持搜索整个文件夹中的重复文件或者使用对比功能,查询出不同文件夹中相同的文件。 使用排除功能,可以过滤掉某些不需要搜索…

SpringCloudAlibaba组件集成

SpringCloudAlibaba组件集成 Nacos服务注册与发现 1.Nacos认识与安装 1.1.什么是Nacos Nacos和Eureka有着相同的能力,甚至更为强大,作为Dubbo 生态系统中重要的注册中心实现。官方对它有如下定义: Nacos致力于帮助您发现,配置…

亚信安慧AntDB数据库与云信达eCloud Data Master 云数据管理系统软件V4完成兼容性互认证

日前,湖南亚信安慧科技有限公司(简称:亚信安慧)与南京云信达科技有限公司(简称:云信达),完成了AntDB数据库产品与云信达eCloud Data Master云数据管理系统软件V4的兼容性互认证。 双…

javaWeb项目-在线考试系统详细功能介绍

项目关键技术 开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架:ssm、Springboot 前端:Vue、ElementUI 关键技术:springboot、SSM、vue、MYSQL、MAVEN 数据库工具:Navicat、SQLyog 1、Java简介 Java语…

mysql中 事务的隔离级别与MVCC

大家好。今天我们来讲一下事务的隔离级别和MVCC。在讲之前,我们先创建一张表,方便我们的讲解: CREATE TABLE hero ( number INT, name VARCHAR(100), country varchar(100), PRIMARY KEY (number) ) EngineInnoDB CHARSETutf8;创建完毕后我…

专业编程显示器明基RD280U,赋能开发者共创科技新纪元

距离ChatGPT问世仅有17个月,OpenAI就推出了颠覆生产力的GPT-4o。这是整个智能时代的一次再进化,GPT-4o不但能实时处理文本、音频和图像,甚至能在232毫秒内实时响应音频输入,几乎与真人对话无异。 当人们惊叹于这项“充满人性”的…

Docker未授权访问漏洞详解

目录 Docker简介 Docker未授权访问漏洞原理 Docker未授权访问漏洞复现 环境搭建 漏洞利用 写入密钥免密登录 写入计划任务反弹shell fofa实战 Docker简介 Docker是一个开源的引擎,可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。 Docke…

DDei在线设计器-DDeiCore-图形插件

DDei-Core-图形 DDei-Core-图形插件包含了基础绘图形状与基础流程形状两个分组,大约100来个图形,能够满足很基本的框图、架构图、流程图的绘制。 图形以分组的形式组织,一个分组中包含多个图形,一个图形也能够同时存在于多个分组。…

李廉洋:6.11黄金原油持续震荡,今日美盘最新分析策略。

黄金消息面分析:周一(6月10日)金价有所回升,此前一个交易日,金价创下了三年半以来的最大跌幅,原因是中国和美国公布的数据令押注中国需求和美联储降息的投机者感到失望。截至发稿,现货金上涨0.5…

【Unity+AI01】在Unity中调用DeepSeek大模型!实现AI对话功能!

要在Unity中调用DeepSeek的API并实现用户输入文本后返回对话的功能,你需要遵循以下步骤: 获取API密钥: 首先,你需要从DeepSeek获取API密钥。这通常涉及到注册账户,并可能需要订阅相应的服务。 集成HTTP请求库&#xf…

西南交通大学【操作系统实验6】

实验目的 学习如何产生一个系统调用,以及怎样通过往内核中增加一个新函数,从而在内核空间中实现对用户空间的读/写。学习重建内核。 实验内容 (1)设计并实现一个新的系统调用pedagogictime() ,该函数通过使用一个引用…

Stable diffusion的SDXL模型,针不错!(含实操)

与之前的SD1.5大模型不同,这次的SDXL在架构上采用了“两步走”的生图方式: 以往SD1.5大模型,生成步骤为 Prompt → Base → Image,比较简单直接;而这次的SDXL大模型则是在中间加了一步 Refiner。Refiner的作用是什么呢…

Base64编码和ASCII编码

1字节Byte 8比特bit 单位换算关系Byte1Byte 8bitKB1024ByteMB1024KBGB1024MB 网速中的Mbps和MB/s Mbps 1M bit/s 1024 K bit/s 1024 * 1024 bit/s MB/s 1024 KB/s 1024 * 1024 B/s 1024 * 1024 * 8 bit/s 所以:1Mbps 1/8 MB/s 1个bit,可以表示…

利用Python的NLTK库来查询指定单词的同义词

一、NTLK库介绍 NLTK(Natural Language Toolkit) 是Python中最为知名的自然语言处理(NLP)库之一,它提供了丰富的模块和数据结构,专门用于人类语言数据的统计自然语言处理。它包含了文本处理库用于分类、标记…

手机丢失不惊慌,华为手机已升级至楼层级设备查找!

出门总是丢三落四,手机丢了怎么办?不要怕,只要你的华为手机升级至云空间新版本,就可以进行楼层级设备查找,现在可以查看到具体的楼层了! 之前有手机丢失过的朋友,肯定有相似的经历&#xff0c…

网页宽度现在右侧有一个竖条空白,怎么啦车网站都没办法完全铺满宽度,怎么回事怎么解决

问: 网页宽度怎么设置全覆盖 回答: 经过检查,发现 是这个网站的最外层html标签设置了宽度,所以导致,当我们删除html的宽度后就解决了这个问题.

【会议征稿,ACM出版】2024年粤港澳大湾区教育数字化与计算机科学国际学术会议(EDCS 2024,6月21-23)

人工智能、区块链、虚拟现实技术等新一轮技术革命正在推进社会结构变革;数字化转型正在重塑社会、劳动力市场和未来工作形式,其中关于教育领域,2019,2020的冠状病毒病大流行给全球教育带来巨大挑战,加速了教育数字化转…

海南聚广众达电子商务咨询有限公司打造一站式电商服务

在数字经济的浪潮中,电商行业蓬勃发展,各种平台和服务商如雨后春笋般涌现。其中,海南聚广众达电子商务咨询有限公司凭借其专业的团队和丰富的经验,在抖音电商服务领域独树一帜,成为业界的佼佼者。 海南聚广众达电子商…