knime数据清洗案例
最终效果
解决办法:
图文并茂的解决办法见我公众号:链接: knime一行代码都不用写,就可以清洗数据,详细步骤如下
具体使用的节点说明如下:
1、使用Excel Reader结节,将数据导入进来。
2.使用Table Transposer: 节点用于转置表格数据,即将行变成列,列变成行。
3、使用Unpivot: Unpivot节点用于将宽格式数据转换为长格式。它可以将多个列合并成两列:一列包含原始列名,另一列包含对应的值。
4.使用Cell Splitter: 这个节点用于拆分单元格中的内容。可以指定分隔符(如逗号、空格等),将一个单元格的内容分割成多个列。
5使用Rule Engine: Rule Engine允许基于一系列规则来转换数据。可以设置条件和相应的操作,对数据进行复杂的转换和清理。
具体代码:
$ColumnValues_Arr[0]$ LIKE "姓名*" => $ColumnValues_Arr[1]$
意思是如果第一个列的数值以“姓名”开头,则将第二个列的数值赋给它
6.使用Missing Value: 这个节点用于处理缺失值。它提供了多种处理方法,如删除包含缺失值的行,用特定值填充缺失值,或使用统计方法(如平均值、中位数)来填充。
7、使用Pivot: Pivot节点用于数据透视,可以将长格式数据转换为宽格式。它允许您选择用作行和列的变量,以及要聚合的值。
8.使用Table Manipulator: 这是一个多功能节点,可以执行各种表格操作,如添加、删除、重命名列,更改列的顺序等。
以上步骤已经实现了效果,但是发现顺序不是需要的结果,所以开始一下的处理。
9、再向Excel中增加数据,数据如下
10、使用Excel Reader结节,将sheet3的数据内容导进来
11、使用Value Lookup节点,"Value Lookup"节点可以用来在数据表中查找值,并根据查找结果将匹配的行附加到数据表中。可以选择要在字典表中查找值的列,以及包含搜索键或条件的字典表中的列。当查找值与字典中的条目匹配时,该行的单元格将附加到数据表中。如果有多行匹配,可以选择使用第一个匹配项或最后一个匹配项。如果没有匹配行,可以选择插入缺失值、匹配下一个较小值或匹配下一个较大值。缺失值被视为普通值,即它们作为查找和替换值有效。还可以选择要在输出数据表中插入的字典表中的列。
12、使用Sorter节点,进行排序。"Sorter"节点用于根据用户定义的条件对行进行排序。在对话框中,选择数据应根据哪些列进行排序。还可以选择是按升序还是降序排序数据。此外,该节点提供了一个选项,可以按照字母数字顺序而不是词典顺序比较兼容字符串列。
13、使用Column Filter节点,"Column Filter"节点用于从输入表中筛选列,只传递剩余的列到输出表中。在对话框中,可以在包含和排除列表之间移动列,以选择要保留或删除的列。
今天的分享就到这里了。有收获的小伙伴,记得点赞、收藏、分享哦!
如果您对本次分享的内容感兴趣的话,记得关注关注哦!不然下次找不到喽!
关注不迷路哦!“好记性不如烂笔头”,IT小本本 —— 记录IT知识,分享打工人真实的日常操作笔记!!!
😝有需要的小伙伴,可以V扫描下方二维码免费关注哦!