EasyExcel 低内存导出大数据量的Excel方案探索 50万行 50列 (附:实现代码)

news2024/12/26 10:57:49

文章目录

  • 1.前言
  • 2.准备工作
  • 3.导出测试
    • 3.1.单次查询、全量导出
    • 3.2. 多次查询,多个文件,单次写入
    • 3.3.多次查询,多个文件,多次写入
    • 3.4.多线程导出探索
    • 3.5.文件打包成ZIP
    • 3.6.响应给客户
  • 4.实现代码
  • 5.结语

1.前言

最近接到一个需求,需要从服务器中导出大量数据到Excel中,数据量大概为50万行,50列,借助这个机会,就想对使用使用低内存导出大数据量的方案进行探索,总结出一个通用可行性方案,以方便日后随时可以使用,同时也分享一下探索的过程。

2.准备工作

技术栈选型
市面上常用的导出 Excel 的工具有 apache poijxlsAlibaba EasyExcel 等,在以往的使用经验以及查询的资料中显示,前面两者对于导出的优化不太好,在大数据量导出时容易OOM,Easy Excel 针对OOM问题做过优化,而且社区活跃,使用比较简单,此处选择EasyExcel。
附:《EasyExcel官方文档》

环境准备

  • 客户端:工作使用笔记本电脑,CPU为 8核i5 低压,排除其他应用消耗后的可用内存约为4GB。
  • 数据库:本地安装的 MySQL 数据库。
  • 服务:新建SpringBoot服务,除需要验证的Excel功能以外,没有其他功能的消耗。

数据准备
在本地 MySQL 数据库中插入 50w 条数据备用。

探索目标

  • 能否正常导出Excel文件
  • 导出过程中的 CPU、内存等消耗情况
  • 各操作步骤的耗时
  • 导出的文件大小,文件能否正常操作

3.导出测试

对不同的导出方式进行验证,通过 Java visual VM 来观察导出过程中的CPU与内存使用情况,这里会使用到一个插件Visual GC,用来查看JVM的各分代信息,不太清楚这个插件的同学可以查看这篇文章《垃圾回收算法和垃圾收集器》中的第5点,里面有工作所在位置,以及插件的安装方法。

下面主要导出到本地硬盘(后面会补充响应给用户客户端的验证),展示的是导出过程中的性能相关指标,实现代码会放在后面的第4点中。

3.1.单次查询、全量导出

一次性将数据全部查询出来,放到内存中,再将所有的数据插入的Excel中。
在这里插入图片描述

查询耗时:19710 ,约 20 s
导出耗时:87588 ,月 88 s
内存消耗:峰值约为 1.5 GB
CPU消耗:约有 20s 左右的高消耗,峰值约为 65%
文件大小:约 120 MB

通过我的工作电脑打开这个 Excel 文件,大于耗时1分钟,打开后基本上就卡死了,无法操作。

通过输出的性能指标来看,需要针对性的做以下几点优化:

  • 减少CPU的消耗
  • 减少内存的使用
  • 缩小Excel文件的大小

首先,缩小Excel文件的大小可以考虑将文件进行拆分,例如:拆分为每个文件5w数据,生成10个文件,再将10个文件打包成zip进行下载。

其次,减少内存的使用,可以考虑将一次性查询 50w 的数据,修改为分批次查询每次查询5w条数据,这样与上面的缩小文件大小不谋而合。生成了一个Excel之后,已经插入到Excel文件中的数据就不需要存在与内存中了,此时通过 GC 清理掉,就可以减少内存的消耗。

最后,减少CPU的消耗,目前阶段暂时还不清楚 CPU 的消耗主要是存在与何处,可以先做上面的两个优化,再观察一下效果。

3.2. 多次查询,多个文件,单次写入

由于我在准备数据阶段插入的数据是比较均匀的,所以理论上50w数据占用1.5GB,那么 5w 条数据占用的内存 就是 150MB,为了尽可能的模拟实际使用场景,此处将JVM的堆大小限制为:-Xms256m -Xmx256m ,再次执行导出,结果如下:
在这里插入图片描述
在这里插入图片描述

查询+导出耗时:耗时:106525 ,约 107s
内存消耗:峰值约为170 MB
CPU消耗:持续约 2.5 min,峰值约为 35%


优化效果明显,导出时间几乎没有变化,内存峰值下降了88%,CPU峰值下降了46%

从CPU的角度来看,可以猜测生成Excel时,插入的数据量越小,则CPU的消耗就越小,带着这样的猜想,进一步进行验证。同时也可以注意一下上面第二张图中的老年代 Full GC 的次数,可以和下一个方案做一下对比。

3.3.多次查询,多个文件,多次写入

之所以有这么一个验证,主要是看到了 EasyExcel文档中有这么一个注释:
在这里插入图片描述
这里取一个极限值5000,将5w条数据再次拆分为10分,写入Excel的时候分10次写入,再看一下消耗情况。
在这里插入图片描述
在这里插入图片描述

耗时:173848 ms 约 170s
内存消耗:峰值约为190 MB
CPU消耗:持续约 2.5 min,峰值约为 17%


先看 CPU ,CPU 的峰值进一步降低了50%,则我们先前的猜测是正确的。

内存的峰值上虽然多了20MB,但是最小值也也降低到了50MB左右,这里把两张图对比可以可以直观的感受到区别:
在这里插入图片描述
同时再对比一下visual GC中的两个图,Full GC的次数由20次缩小为7次,证明大部分的内存在新生代就已经回收了。

也就是说,当前这种方案是可以承受更低的堆内存限制的,之所以峰值还是会上去,是因为垃圾回收器自动回收垃圾时会有一个阈值,在没有超过这个阈值的时候,垃圾回收器也不会随意的回收内存,毕竟回收内存是会产生停顿时间的。

3.4.多线程导出探索

如果使用多线程并发生成10个文件,理论上速度会更快,但是由于同样的,数据会全部加载到内存中,对于内存的消耗也会大增,抱着不死心的态度,还是验证一下。
将代码修改为多线程之后,执行一下导出:
在这里插入图片描述
这次CPU的消耗简直不忍直视,我在截完图后,电脑就直接卡死了只能强制重启。不死心的我,换了另一台台式机进行测试,配置为 i79700 8核16线程,这次顺利导出了,耗时约为10s,但是即使是这种配置,CPU的峰值也飙升到了70%左右。


用性能来换时间是可以实现的,但是需求的硬件配置太高,现在服务器又那么贵,实现的时候需要评估功能收益与硬件成本,在业务要求的导出实时性不高的情况下,使用以空间换时间的方式更为合适。

3.5.文件打包成ZIP

响应给客户时,需要将多个文件打包成一个ZIP文件,不然用户就得下载10次,体验极差。

至于压缩方面,Excel本身对数据就已经做了压缩,再将其打包成zip的形式所带来的数据压缩率就很低了,所以几乎不考虑压缩的问题。

这里的打包主要是通过hutool包提供的压缩方式,文件服务器使用的是腾讯云的COS,先测试一下执行时间以及性能消耗。
在这里插入图片描述

打包耗时:5459
内存和CPU几乎没有消耗

3.6.响应给客户

完成ZIP的打包之后,就需要将文件响应给客户了,有两种形式:

  • 通过Response同步响应给用户
  • 上传到文件系统,给用户返回一个下载地址

第一种方式,只能做成同步响应的,也就是说,用户在点击下载之后需要在当前页面等待3到5分钟,不能做其他的操作。

第二种方式,可以做成异步响应的,用户在点击下载之后,返回一个“提交成功,正在处理中”的提示,用户就可以做其他事情去了,待上传到文件系统成功之后将下载地址通知给用户即可。
通知的方式多种多样,可以用邮件通知、企业微信群通知、站内信通知,甚至可以做一个下载记录列表将下载地址存入到数据库中。


同时,对于多个用户同时下载的情况,也可以通过队列进行排队,一次只处理1个或两个(需要通过硬件来评估)导出请求。

4.实现代码

引入依赖

 <dependency>
     <groupId>com.alibaba</groupId>
     <artifactId>easyexcel</artifactId>
     <version>3.2.1</version>
 </dependency>

 <dependency>
     <groupId>cn.hutool</groupId>
     <artifactId>hutool-core</artifactId>
     <version>4.6.1</version>
 </dependency>
 
<dependency>
    <groupId>com.baomidou</groupId>
    <artifactId>mybatis-plus-boot-starter</artifactId>
    <version>3.3.2</version>
</dependency>

我这里使用的ORM框架是mybatis-plus,可以换成任意自己喜欢的


单次查询,全量导出

public void export() {
    long t1 = System.currentTimeMillis();
    List<MemberInfo> memberInfos = memberInfoMapper.selectList(new QueryWrapper<>());
    long t2 = System.currentTimeMillis();
    
    String fileName = "d://excel/simpleWrite" + System.currentTimeMillis() + ".xlsx";
  
    EasyExcel.write(fileName, MemberInfo.class)
            .sheet("模板")
            .doWrite(() -> memberInfos);
            
    long t3 = System.currentTimeMillis();
    System.out.println("查询耗时:" + (t2 - t1));
    System.out.println("导出耗时:" + (t3 - t2));

}

多次查询,多个文件,单次写入

public void export2() {
    long t1 = System.currentTimeMillis();
    for (int i = 0; i < 10; i++) {
        // 分页去数据库查询数据 这里可以去数据库查询每一页的数据
        QueryWrapper<MemberInfo> queryWrapper = new QueryWrapper<>();
        queryWrapper.last("limit " + i * 50000 + ",50000");
        List<MemberInfo> memberInfos = memberInfoMapper.selectList(queryWrapper);
        
        String fileName = "d://excel/simpleWrite" + "模板" + i + System.currentTimeMillis() + ".xlsx";
        
        try (ExcelWriter excelWriter = EasyExcel.write(fileName, MemberInfo.class).build()) {
            WriteSheet writeSheet = EasyExcel.writerSheet("模板").build();
            excelWriter.write(memberInfos, writeSheet);
        }
    }

    long t2 = System.currentTimeMillis();
    System.out.println("耗时:" + (t2 - t1));
}

多次查询,多个文件,多次写入

public void export4() {
    long t1 = System.currentTimeMillis();
    for (int i = 0; i < 10; i++) {

        String fileName = "d://excel/simpleWrite" + "模板" + i + System.currentTimeMillis() + ".xlsx";
        try (ExcelWriter excelWriter = EasyExcel.write(fileName, MemberInfo.class).build()) {
            WriteSheet writeSheet = EasyExcel.writerSheet("模板").build();

            for (int j = 0; j < 10; j++) {
                // 分页去数据库查询数据 这里可以去数据库查询每一页的数据
                QueryWrapper<MemberInfo> queryWrapper = new QueryWrapper<>();
                queryWrapper.last("limit " + (10 * i + j) * 5000 + ",5000");
                List<MemberInfo> memberInfos = memberInfoMapper.selectList(queryWrapper);
                
                excelWriter.write(memberInfos, writeSheet);
            }
        }
    }

    long t2 = System.currentTimeMillis();
    System.out.println("耗时:" + (t2 - t1));
}

打包

 public void pack() {
    long t1 = System.currentTimeMillis();
    ZipUtil.zip("d://excel", "d://zip/导出数据.zip");
    long t2 = System.currentTimeMillis();

    System.out.println("打包耗时:" + (t2 - t1));
}

多线程探索

public void export3() {
     long t1 = System.currentTimeMillis();

     CountDownLatch countDownLatch = new CountDownLatch(10);

     for (int i = 0; i < 10; i++) {
         int finalI = i;
         new Thread(() -> {
             String fileName = "d://excel/simpleWrite" + "模板" + finalI + System.currentTimeMillis() + ".xlsx";
             try (ExcelWriter excelWriter = EasyExcel.write(fileName, MemberInfo.class).build()) {

                 QueryWrapper<MemberInfo> queryWrapper = new QueryWrapper<>();
                 queryWrapper.last("limit " + finalI * 50000 + ",50000");
                 List<MemberInfo> memberInfos = memberInfoMapper.selectList(queryWrapper);
                 
                 WriteSheet writeSheet = EasyExcel.writerSheet("模板").build();
                 
                 excelWriter.write(memberInfos, writeSheet);
                 countDownLatch.countDown();
             }
         }).start();
     }
     try {
         countDownLatch.await();
     } catch (InterruptedException e) {
         e.printStackTrace();
     }
     long t2 = System.currentTimeMillis();
     System.out.println("耗时:" + (t2 - t1));
 }

上传到文件服务器涉及到公司信息就不放在这里了,我这边使用的是腾讯云的COS,可以替换为你们自己公司所用的文件服务器。

5.结语

从几个方面总结一下低内存导出大数据量的Excel的方法:

  • 降低存入到内存中的数据,使用分批次查询、分批次插入数据的方式。
  • 尽可能的减少并发,避免使用多线程操作Excel,同时,还可以通过队列做异步和限流,排队处理导出请求。
  • 考虑到Excel文件过大无法操作,可以将一个大文件拆分为多个小文件。

以上,是从Demo的角度验证了可行性,实际生产使用还需要考虑到文件的过期、文件的加密等,如果是发布到容器中还需要考虑文件路径无法找到等问题,但是与主题关系不大,这里就不做过多的讨论了,可以实际遇到问题再做分析和考虑。


如果觉得本文有帮助的话,可以帮忙点点赞哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/360059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

唤醒手腕 Java 后端 Springboot 结合 Redis 数据库学习笔记(更新中)

Redis 基本介绍 Redis Introduction The open source, in-memory data store used by millions of developers as a database, cache, streaming engine, and message broker. 基本概念&#xff1a;redis 是一个开源的、使用 C 语言编写的、支持网络交互的、可基于内存也可持…

没有资源没有人脉,23年跨境电商仍值得入局!

随着经济全球化的不断深入&#xff0c;越来越多人关注到跨境电商行业。作为新兴的贸易业态&#xff0c;跨境电商拥有多边化、交易链条短等传统电商无法比拟的优势&#xff0c;能够有效地推广更多中国优质产品到全球市场上&#xff0c;在促进国家经济发展过程中发挥着举足轻重的…

谷歌推出新优化器Lion:优化算法的符号发现

文章目录谷歌推出新优化器Lion&#xff1a;优化算法的符号发现Lion VS AdamW论文实验1.图像分类2.视觉语言对比学习3.扩散模型4.语言建模和微调5.与其他流行优化器的比较超参数设置小结谷歌推出新优化器Lion&#xff1a;优化算法的符号发现 优化器即优化算法&#xff0c;优化器…

加入蓝精灵协会的快速指南

了解使用蓝精灵协会应用程序所需的所有要点。 什么是蓝精灵协会&#xff1f; 蓝精灵协会是唯一一个由蓝精灵官方品牌支持的 PFP 项目。 我们目前正处于这个交互式项目的第二阶段&#xff0c;重点是通过游戏化的 Web3 体验建立一个大型社区。下面是参与游戏的基本步骤&#xff0…

C++进阶:二叉搜索树

文章目录1 二叉搜索树概念2 二叉搜索树的实现2.1 结点的定义2.2 二叉搜索树的插入2.2 二叉搜索树的查找2.3 二叉搜索树的删除2.4 二叉搜索树的默认成员函数2.4.1 拷贝构造2.4.2 析构函数2.4.3 赋值重载3 二叉搜索树的应用3.1 k模型3.2 kv模型4 二叉搜索树的性能分析1 二叉搜索树…

【字典转模型 Objective-C语言】

一、点按钮,弹出的这个效果,这实际上是个Label, 这实际上是一个Label,点按钮弹出的这个效果, 设置一个Label的背景色、前景色、透明度、等等, 让它加进来,然后通过动画让它隐藏掉, 这就是,这个效果的实现思路, 咱们这个效果,先稍微往后放一放, 这个并不是重点…

匈牙利算法学习笔记

匈牙利算法学习笔记1. 前言1.1 二分图1.2 二分图匹配2. 匈牙利算法(Hungarian Algorithm)2.1 基础概念2.2 实现步骤参考链接&#xff1a;1. 14-4&#xff1a;匈牙利算法 Hungarian Algorithm1. 前言 1.1 二分图 二分图通常针对无向图问题。假设G(V,E)G(V,E)G(V,E)是一个无向图…

Linux搭建gitlab服务器

第一步&#xff1a;切换到root用户 sudo root或者 sudo -i第二步&#xff1a;执行以下命令 yum install curl openssh-server openssh-clients postfix cronie -y​systemctl start postfix.servicechkconfig postfix onlokkit -s http -s ssh第三步&#xff1a;添加Gitlab&…

如何理解 Python 的赋值逻辑

摘要&#xff1a; 如果你学过 C 语言&#xff0c;那么当你初见 Python 时可能会觉得 Python 的赋值方式略有诡异&#xff1a;好像差不多&#xff0c;但又好像哪里有点不太对劲。 本文比较并解释了这种赋值逻辑上的差异。回答了为什么需要这种赋值逻辑以及如何使用这种赋值逻辑…

Acer新蜂鸟Swift3电脑开机总是蓝屏错误怎么办?

Acer新蜂鸟Swift3电脑开机总是蓝屏错误怎么办&#xff1f;有用户使用的Acer新蜂鸟Swift3电脑一开机的时候&#xff0c;没过几秒电脑桌面就变成了蓝屏的了&#xff0c;通过强制重启之后依然会重复这个问题&#xff0c;那么这个问题要怎么去进行解决了&#xff0c;今天将你怎么重…

Android 反序列化漏洞攻防史话

Java 在历史上出现过许多反序列化的漏洞&#xff0c;但大部分出自 J2EE 的组件。即便是 FastJSON 这种漏洞&#xff0c;似乎也很少看到在 Android 中被实际的触发和利用。本文即为对历史上曾出现过的 Android Java 反序列化漏洞的分析和研究记录。 序列化和反序列化是指将内存数…

k8s-kubectl命令

文章目录一、kubectl 基本命令1、陈述式资源管理方法:2、声明式资源管理办法二、基本信息查看三、项目的生命周期创建kubectl run命令四、金丝雀发布(Canary Release)——陈述式管理方法五、声明式管理方法kubectl create 和 kubectl apply区别一、kubectl 基本命令 1、陈述式…

交叉验证 | 机器学习

1、交叉验证 1.1概念 交叉验证的核心思想&#xff1a;对数据集进行多次划分&#xff0c;对多次评估的结果取平均&#xff0c;从而消除单次划分时数据划分得不平衡而造成的不良影响。因为这种不良影响在小规模数据集上更容易出现&#xff0c;所以交叉验证方法在小规模数据集上更…

Profinet转ModbusTCP网关连接昆仑通态触摸屏配置案例

本案例是模拟将Modbus TCP 设备数据接入到西门子PROFINET 网络中。 使用设备为西门子 S7-1500 型 PLC, Profinet转ModbusTCP网关。MODBUS 从站昆仑通态触摸屏。 配置方法&#xff1a; 打开博图&#xff0c;新建项目并添加站点。 添加1513PLC。 设置好IP并处于联网状态 导入Pr…

【前端】小程序开发入门:安装开发工具、目录结构与项目配置

文章目录前期准备目录结构app.jsonpageswindow其他前期准备 开发小程序要先申请一个对应的AppID&#xff1a;微信小程序 (qq.com) 微信官方小程序开发文档&#xff1a;微信开放文档 (qq.com) 然后安装一个小程序开发工具&#xff1a; 选择稳定版&#xff1a; 安装后打开&…

组合由于继承

目录 前言&#xff1a; 1.什么是继承&#xff1f; 2.继承的劣势、问题&#xff1f; 3.组合相比继承有哪些优势&#xff1f; 4、如何判断该用组合还是继承&#xff1f; 参考资料 前言&#xff1a; 我们在平时日常开发设计的过程中&#xff0c;经常会有人提到一条经典的设…

音视频基础之封装格式与音视频同步

封装格式的概念 封装格式(也叫容器&#xff09;就是将已经编码压缩好的视频流、音频流及字幕按照一定的方案放到一个文件中&#xff0c;便于播放软件播放。 一般来说&#xff0c;视频文件的后缀名就是它的封装格式。 封装的格式不一样&#xff0c;后缀名也就不一样。 比如&a…

MMPBSA结合自由能计算原理

MMPBSA结合自由能计算原理 计算结合自由能的方法有很多&#xff0c;例如&#xff0c;热力学积分&#xff08;Thermodynamic Integration&#xff0c;TI&#xff09;、自由能微扰&#xff08;Free Energy Perturbation&#xff0c;FEP&#xff09;、MM/PB(GB)SA、线性相互作用能…

安科瑞消防应急照明和疏散指示系统在城市隧道的应用分析

【摘要】&#xff1a;随着城市的发展&#xff0c;交通量越来越大&#xff0c;交通状况越来越复杂&#xff0c;城市隧道的修建也随之变多。当隧道照明正常时&#xff0c;隧道内路面有足够的照度&#xff0c;隧道中快速行驶的汽车&#xff0c;大部分司机不用打开车灯或只需打开车…

Swift 周报 第二十三期

前言 本期是 Swift 编辑组自主整理周报的第十四期&#xff0c;每个模块已初步成型。各位读者如果有好的提议&#xff0c;欢迎在文末留言。 欢迎投稿或推荐内容。目前计划每两周周一发布&#xff0c;欢迎志同道合的朋友一起加入周报整理。 勇敢是即便知道好结局不会每每降临在…