在进行数据挖掘分析的时候,数据处理是非常重要的一环。数据处理一般是要结合实际业务做相应的数据处理,为后续机器学习建模做好准备。比如数据存在缺失值,就要做相应的缺失值的填充或删除操作;数据建模需要的数据存储在不同的表或源中,需要做相应的融合操作;拿到的数据是明细数据,但实际建模需要的是聚合数据等等。
一般的建模数据是整合清洗好的宽表数据,因此需要提前准备好需要分析的宽表数据。若没有,则需要通过DF对数据进行整合形成宽表,或者通过AI的扩展编程实现数据的整合,形成宽表进行落库,且要与建模流程分开,防止后期建模流程周期长、执行慢等问题,在部署时,可以采用调度编排对多个任务进行串连。
除了前面介绍到的缺失值和异常值问题及处理,平台中还有许多数据处理节点可以实现建模分析的前期准备工作,下面针对于不同的数据问题使用Tempo人工智能产品进行处理的方法进行介绍。
数据重复
对于数据重复问题可以使用到的数据处理节点有数据去重和过程查询分析器。
数据去重节点有两种使用场景,一种是去掉所有列的完全重复数据,另一种是去掉指定列的完全重复数据。
在过程查询分析器中,支持“仅选择非重复行”,实现数据去重。
数据融合
可以使用到的数据处理节点包括数据连接、数据拆分、数据追加、数据差集、数据分解和过程查询分析器节点。
数据连接节点可以将多个表进行融合。支持多个数据表两两表之间单个或多个字段为连接字段的连接操作,连接方式包括内连接、完全外连接、左连接、右连接。
数据追加节点支持将多个表的行进行拼接。
过程查询分析器节点当连接多个数据集时,打开节点可以点击表连接对多张表进行连接配置从而达到表连接的目的。
排序
可以使用到的数据处理节点包括排序和过程查询分析器节点。
过程查询分析器节点通过数据排序功能进行实现。
排序节点可以对单个字段或多个字段组合的升序或降序排序。
其他
分类汇总节点可以按照某种分类变量和需要分析的数据进行分类计算,对原始数据分类,做出表格形式,便于直观地观察数据的大致分布情况。对数值型数据可以进行计数、最大值、最小值、平均值、求和、方差、标准差、唯一计数、上四分位数、下四分位数、中位数、变异系数和百分位数的处理方式;对字符型数据可以进行计数和唯一计数的处理方式。还可以选择单独输出汇总结果或选择原表数据与汇总结果拼接输出。
数据平衡节点可以将非平衡数据通过丢弃降低多值对应数量或者复制增加低值对应数量,让不同值下样本的数量能够大致相同。该节点提供了两种模式,一种是通过绝对数量进行数据平衡,另一种是通过调整因子。
随机抽样节点支持无放回抽样、有放回抽样、分层抽样和N中取1的抽样方法,还提供了按照绝对数量(近似)和相对比例进行抽样。
综合性节点
除去以上的数据处理方式,平台还支持一些综合性节点,支持实现更复杂的数据处理场景。
过程查询分析器是根据指定的条件从接入的数据表中提取数据,支持对数据进行表连接、计算列、数据选择、数据过滤、数据排序、汇总、去重等操作,实现接入数据的查询分析过程。
自动数据处理能够对用户输入的数据根据内置的数据处理规则进行自动处理,提高用户的数据处理效率。包括缺失值处理、离群值处理、标准差判断处理、单类别占比判断处理、单类别行数判断处理。
以上是使用Tempo人工智能平台进行数据挖掘分析建模过程中进行数据处理的方法介绍。