掌握这些技巧,让Excel批量数据清洗变得简单高效!

news2024/11/28 4:48:51

什么是数据清洗

数据清洗是指在数据处理过程中对原始数据进行筛选、转换和修正,以确保数据的准确性、一致性和完整性的过程。它是数据预处理的一部分,旨在处理和纠正可能存在的错误、缺失值、异常值和不一致性等数据质量问题。

为什么要数据清洗

Excel在数据采集场景中非常常用。作为一款电子表格软件,它提供了丰富的功能和易用的界面,使其成为大部分人首选的数据采集工具之一。

而在数据采集的过程中,因为采集渠道多样,数据格式也多种多样,从而会出现部分数据的丢失和不准确的情况,因此为了处理掉这些 “垃圾”数据,需要对数据进行清洗。

哪些数据需要进行清洗

通常在这几种情况下需要进行数据清洗。

1.缺失数据处理:数据在采集或迁移的过程中,出现数据的遗漏。

2.错误数据判断:数据在采集或迁移的过程中与原数据不一致。

3.重复数据处理:一条数据重复出现多次。

4.数据格式转换:数据在采集或迁移的过程中出现了乱码。

数据清洗都需要做些什么

下面让我们看一下数据清洗都会涉及的处理步骤:

  1. 分析需求:通过对数据原本的格式,特征进行分析,规划数据清洗的业务规则及需求。
  2. 打开文件:把Excel文件打开,通常这一步需要依赖Excel组件库,比如使用POI,GcExcel,EasyExcel等。
  3. 读取数据:通过Excel库中的API,读取需要操作的数据,这里比较一下三个产品的特点:

GcExcel提供了**IRange(区域)**的概念,可以通过API快速的读取有数据的区域。POI和EasyExcel(POJO注解)则需要遍历每一个单元格。

根据业务需求,可以选择使用API,也可以选择遍历所有单元格。

  1. 数据清洗:根据需求,结合Excel库的API,进行数据清洗。如:用默认值填写缺失数据的单元格,删除整个空行,删除重复数据,把不符合范围的数据删除掉,或者把日期数字的格式统一起来,等等。
  2. 数据持续化:把处理好的数据回存至Excel文件,或者保存在数据库中或者CSV文件中。

如何使用GcExcel实现数据清洗

GcExcel有IRange的API,可以让数据清洗时代码写的更简单,因此下面我们选择用GcExcel的代码为例解决上面提到的几个场景。

基于IRange,GcExcel提供一些快速查找的API,如下(在文件中查找特殊单元格):

Workbook workbook = new Workbook();
 workbook.open("data.xlsx");
 IWorksheet sheet = workbook.getActiveSheet();

 //寻找sheet中,使用到的所有单元格
 IRange usedRange = sheet.getUsedRange();

 //寻找所有的公式单元格
 IRange allFormulas = sheet.getCells().specialCells(SpecialCellType.Formulas);
 //寻找所有的常量单元格
 IRange allConstants = sheet.getCells().specialCells(SpecialCellType.Constants);

虽然GcExcel提供了API,但数据清洗时,也可能有需求需要遍历,下面是GcExcel遍历单元格的代码,后面我们就有可能会用到。

public void FetchCellBasedOnRange(IRange area) {
   for (int column = 0; column < area.getColumns().getCount(); column++) {
     for (int row = 0; row < area.getRows().getCount(); row++) {
       IRange cell = area.get(row, column);
       //获取单元格的值
       Object val = cell.getValue();
     }
   }
 }
场景一:缺失数据处理

假如有一个Excel的数据,现在蓝色的格子是空的,我们需要对不同列下的蓝色格子做不同的处理,例如姓名的空格子替换为匿名,年龄替换成-1,身份证号填写N/A,住址填写为未知。

代码如下:

public void replaceBlankCell() {
   Workbook workbook = new Workbook();
   workbook.open("resources/BlankCells.xlsx");
   IWorksheet sheet = workbook.getActiveSheet();
   IRange blankRanges = sheet.getCells().specialCells(SpecialCellType.Blanks);
   for (IRange area : blankRanges.getAreas()) {
     for (int column = 0; column < area.getColumns().getCount(); column++) {
       for (int row = 0; row < area.getRows().getCount(); row++) {
         IRange cell = area.get(row, column);
         Object defaultVal = getDefaultVal(cell.getColumn());
         cell.setValue(defaultVal);
       }
     }
   }

   workbook.save("Result.xlsx");
 }

 private Object getDefaultVal(int column) {
   switch (column) {
     case 1:
       return "匿名";
     case 2:
       return -1;
     case 3:
       return "N/A";
     case 4:
       return "未知";
   }
   return null;
 }

要注意的是,sheet.getCells().specialCells(SpecialCellType.Blanks);返回的区域是多个,因此我们需要遍历通过遍历areas来对每一个区域进行遍历。

cell.getColumn()可以获取到当前格子对应到sheet上的第几列,因此获取默认值时使用该方法。

场景二:错误数据判断

错误数据的判断,与缺失数据处理相似,通过制定一些规则找出错误的值,对于错误值可以通过修改背景颜色进行高亮处理,用来提示,进行人工修改。

通常规则可以有两种选择:

  1. 使用Java直接编写判断逻辑。
  2. 使用数据校验(Datavalidation)功能,或者条件格式(ConditionFormat)来进行处理。

假如我们有下面一份数据,其中联系电话中有两条是错误的,位数不够,货物ID有两条是错误的,货物ID不能小于0,我们需要把他们找出来。

public void MarkErrorData(){
   Workbook workbook = new Workbook();
   workbook.open("resources/ErrorData.xlsx");
   IWorksheet sheet = workbook.getActiveSheet();

   IRange telRange = sheet.getRange("C2:D5");
   for (int r=0; r<telRange.getRows().getCount();r++){
     IRange cell = telRange.get(r,0);
     if(cell.getValue().toString().length() != 11){
       cell.getInterior().setColor(Color.GetOrangeRed());
     }
   }

   IFormatCondition condition =
       (IFormatCondition) sheet.getRange("D2:D5").getFormatConditions().
           add(FormatConditionType.CellValue, FormatConditionOperator.Less, 1, null);
   condition.getInterior().setColor(Color.GetOrangeRed());

   workbook.save("Result.xlsx");
 }


在代码中,我们对C2:C5进行遍历,判断字符串长度,然后对长度不合法的数据进行颜色标记。

而对于货物,设置了条件格式,可以让Excel在打开时,自行标记错误的数据。

场景三:重复数据处理

假如我们有一份数据,其中有一些行数据是完全重复的,我们需要删除这些行,如图所示。

public void RemoveDuplicateData() {
   Workbook workbook = new Workbook();
   workbook.open("resources/DuplicateRows.xlsx");
   IWorksheet sheet = workbook.getActiveSheet();
   IRange usedRange = sheet.getUsedRange();
   HashSet<String> set = new HashSet<>();
   Stack<IRange> deleteRows = new Stack<>();
   for (int r = 1; r < usedRange.getRows().getCount(); r++) {
     IRange row = usedRange.getRows().get(r);
     StringBuilder rowKey = new StringBuilder();
     for (int c = 0; c < row.getColumns().getCount(); c++) {
       rowKey.append(usedRange.get(r, c).getValue().toString());
     }
     if (set.contains(rowKey.toString())) {
       deleteRows.push(row);
     } else {
       set.add(rowKey.toString());
     }
   }

   while (!deleteRows.isEmpty()) {
     deleteRows.pop().delete();
   }

   workbook.save("Result.xlsx");
 }


可以看到,重复的行被移除掉了。代码中用到了哈希set和栈,其中我们用哈希set来查找重复的行。

另外使用栈来记录需要被删除的行,这里特地用了栈,而没有使用队列,数组或者ArraryList的原因是,GcExcel在删除一行时,会让这行下面的数据上移,这样我们之前记录的行就会便宜,导致删除错误的行。

简而言之,我们需要从下向上删除,来避免行位移导致删错的问题。

场景四:数据格式转换

例如我们有一些日期数据,或者货币数据,在数据采集时数据格式不同,我们需要分别统一订单日期,金额的格式。

代码如下:

public void unifyFormat() {
   Workbook workbook = new Workbook();
   workbook.open("resources/DifferentFormat.xlsx");
   IWorksheet sheet = workbook.getActiveSheet();
   IRange usedRange = sheet.getUsedRange();
   for (int row = 1; row < usedRange.getRows().getCount(); row++) {
     IRange dateCell = usedRange.get(row, 1);
     IRange priceCell = usedRange.get(row, 2);
     dateCell.setValue(parseDate(dateCell.getValue()));
     dateCell.setNumberFormat("yyyy年MM月dd日");
     priceCell.setValue(parsePrice(priceCell.getValue()));
     priceCell.setNumberFormat("¥0.00");
   }
   sheet.getRange("B1").setNumberFormat("");

   workbook.save("Result.xlsx");
 }

 private Double parsePrice(Object value) {
   if (value == null)
     return null;
   String val = value.toString();
   if (val.startsWith("$") || val.startsWith("¥")) {
     val = val.substring(1);
   }
   return Double.parseDouble(val);
 }

 private LocalDateTime parseDate(Object value) {
   if (value == null)
     return null;
   if (value instanceof LocalDateTime) {
     return (LocalDateTime) value;
   }
   DateTimeFormatter[] formatters = {
       DateTimeFormatter.ofPattern("yyyy/MM/dd"),
       DateTimeFormatter.ofPattern("MM-dd-yyyy"),
       DateTimeFormatter.ofPattern("yyyy年MM月dd日"),
       DateTimeFormatter.ofPattern("yyyy.MM.dd")
   };
   LocalDate datetime = null;

   for (DateTimeFormatter formatter : formatters) {
     try {
       datetime = LocalDate.parse(value.toString(), formatter);
       break;
     } catch (DateTimeParseException e) {
       e.printStackTrace();
     }
   }

   assert datetime != null;
   return datetime.atStartOfDay();
 }

需要注意的是在处理日期和金额时,由于value的类型不太一致,需要写特定的方法来进行处理。


扩展链接:

Spring Boot框架下实现Excel服务端导入导出

项目实战:在线报价采购系统(React +SpreadJS+Echarts)

React + Springboot + Quartz,从0实现Excel报表自动化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1055761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

南京大学【软件分析】07 Interprocedural Analysis

文章目录 1. Motivation2. Call graph Construction&#xff08;CHA&#xff09;2.1 方法分派Method Dispatch2.2 方法签名method signature2.3 案例&#xff1a;查找Dispatch2.4 CHA2.5 通过CHA构造调用图 3. Interprocedural Control-Flow Graph4. Interprocedural Data-Flow…

DBA数据库运维-MySQL安装篇(glibc,源码)

1. MySQL数据库版本 版本说明社区版: MySQL Community Edition (GPL)1.可以看做是企业版的“广泛体验版(小白鼠版)"&#xff0c;未经各个专有系统平台的压力和性能测试 2.基于GPL协议发布&#xff0c;可以随意下载使用 3.没有任何官方技术支持服务企业版:MySQL Enterpris…

经典循环神经网络(一)RNN及其在歌词数据集上的应用

经典循环神经网络(一)RNN及其在歌词数据集上的应用 1 RNN概述 在深度学习兴起之前&#xff0c;NLP领域一直是统计模型的天下&#xff0c;例如词对齐算法GIZA&#xff0c;统计机器翻译开源框架MOSES等等。在语言模型方向&#xff0c;n-gram是当时最为流行的语言模型方法。n-gr…

YoloV8改进策略:SPD-Conv加入到YoloV8中,让小目标无处遁形

摘要 SPD-Conv是一种新的构建块,用于替代现有的CNN体系结构中的步长卷积和池化层。它由一个空间到深度(SPD)层和一个非步长卷积(Conv)层组成。 空间到深度(SPD)层的作用是将输入特征图的每个空间维度降低到通道维度,同时保留通道内的信息。这可以通过将输入特征图的每…

关于日志系统

目录 日志落地类&#xff08;工厂模式&#xff09;双缓冲区异步处理器缓冲区异步工作器 日志器类同步日志器异步日志器构造日志器构造局部日志器构造全局日志器日志器管理器&#xff08;单例模式&#xff09; 日志宏&全局接口&#xff08;代理模式&#xff09; 源码&#x…

使用 cURL 发送 HTTP 请求: 深入探讨与示例

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

Vue3之Suspense

<Suspense> 是一个内置组件&#xff0c;用来在组件树中协调对异步依赖的处理。它让我们可以在组件树上层等待下层的多个嵌套异步依赖项解析完成&#xff0c;并可以在等待时渲染一个加载状态。 我们可以看到官网并不推荐我们使用它&#xff0c;目前仍处于测试中。 他用于加…

【算法系列篇】哈希表

文章目录 前言1. 两数之和1.1 题目要求1.2 做题思路1.3 Java代码实现 2. 判断是否为字符重排2.1 题目要求2.2 做题思路2.3 Java代码实现 3. 存在重复元素3.1 题目要求3.2 做题思路3.3 Java代码实现 4. 存在重复元素II4.2 题目要求4.2 做题思路4.3 Java代码实现 5. 字母异位词分…

Guitar Pro 8 .1全新功能介绍及2023官方特惠优惠券

《中国好声音》节目诞生10年多热度不减&#xff0c;每一季都有籍籍无名的学员成为万众瞩目的新星。怎么像他们一样把爱好变成事业&#xff1f;带着这个问题在不断的探寻中找到了答案&#xff0c;那就是要在有限的时间里比别人做效率更高的事。所谓“工欲善其事&#xff0c;必先…

超百家上市公司抛出回购、增持计划

9月以来&#xff0c;多家上市公司披露回购方案或增持计划&#xff0c;持续向市场传递积极信号&#xff0c;以真金白银提振市场信心。 Wind统计显示&#xff0c;截至9月28日&#xff0c;9月以来已有77家上市公司披露回购预案&#xff0c;其中多家公司发布超过亿元的回购计划。 …

WINDOWS与LINUX的文件文件共享

打开VMware: 点击虚拟机->点击设置 出来虚拟机设置&#xff0c;咱们点击选项->有个共享文件夹点击->选择总是启用->点击添加 下一步 此处选择一个windows下与虚拟机共享的一个目录 最后确定就ok了 那怎么在虚拟机Linux中访问共享文件呐 在文件的其他位置选择计…

SpringMVC如何处理表单提交与文件上传

SpringMVC处理表单提交与文件上传 SpringMVC是一个流行的Java框架&#xff0c;用于构建Web应用程序。它提供了强大的功能来处理表单提交和文件上传操作。本文将深入探讨SpringMVC如何处理这些常见的Web任务&#xff0c;以及如何使用示例代码来实现它们。 表单提交处理 表单提…

基于 SpringBoot+Vue 的企业人事管理系统

1 简介 本文讲解的是 Java基于 SpringBoot 的人事管理系统。本系统涉到的功能主要有&#xff1a;首页&#xff0c;个人中心&#xff0c;员工管理&#xff0c;部门管理&#xff0c;员工考勤管理&#xff0c;请假申请管理&#xff0c;加班申请管理&#xff0c;员工工资管理&…

cesium 鹰眼图2

cesium 鹰眼图2 1、实现方法 本文采用cesium 和 leaflet 来时实现,鹰眼采用leaflet来实现 2、示例代码 2.1 <!DOCTYPE html> <html><head><meta charset="utf-8">

【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

mathtype如何嵌入到word中?详细mathtype安装步骤教程

mathtype是一款功能特别强大的数学方式编辑软件&#xff0c;为用户提供各种强大的数学公式符号帮助用户进行计算&#xff0c;并且速度很快。有小伙伴知道mathtype如何嵌入到word中吗&#xff0c;这里小编就给大家详细介绍一下mathtype嵌入到word中的方法&#xff0c;有需要的小…

第81步 时间序列建模实战:Adaboost回归建模

基于WIN10的64位系统演示 一、写在前面 这一期&#xff0c;我们介绍AdaBoost回归。 同样&#xff0c;这里使用这个数据&#xff1a; 《PLoS One》2015年一篇题目为《Comparison of Two Hybrid Models for Forecasting the Incidence of Hemorrhagic Fever with Renal Syndr…

循环语句

章节目录&#xff1a; 一、while 循环1.1 句式与基本使用1.2 while...else1.3 单行语句 二、for 循环2.1 句式与基本使用2.2 for...else2.3 range() 函数 三、退出循环3.1 break3.2 continue 四、pass 语句五、结束语 一、while 循环 1.1 句式与基本使用 句式&#xff1a; w…

【进阶C语言】自定义类型

本节内容大致目录如下&#xff1a; 1.结构体 2.位段 3.枚举 4.联合&#xff08;共用体&#xff09; 以上都是C语言中的自定义类型&#xff0c;可以根据我们的需要去定义。 一、结构体 一些基础知识在初阶C语言的时候已经介绍过&#xff0c;在这里粗略概括&#xff1b;重…