【昕宝爸爸小模块】什么是POI,为什么它会导致内存溢出?

news2024/9/28 21:27:39

在这里插入图片描述


➡️博客首页       https://blog.csdn.net/Java_Yangxiaoyuan


       欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。


       本文章CSDN首发,欢迎转载,要注明出处哦!


       先感谢优秀的你能认真的看完本文,有问题欢迎评论区交流,都会认真回复!


什么是POI,为什么它会导致内存溢出

  • ✅ 一、什么是POI
    • ✅1.1 Excel并没看到的那么小
    • ✅1.2 POI的溢出原理
  • ✅ 二、拓展知识仓
    • ✅2.1 几种Workbook格式
    • ✅2.2 SXSSFWorkbook是什么
    • ✅2.3 SXSSFWorkbook有哪些优点和缺点


✅ 一、什么是POI


Apache POl,是一个非常流行的文档处理工具,通常大家会选择用它来处理Excel文件。但是在实际使用的时候经常会遇到内存溢出的情况,那么,为啥他会导致内存溢出呢?


✅1.1 Excel并没看到的那么小


我们通常见到的xlsx文件,其实是一个个压缩文件。它们把若千个XML格式的纯文本文件压缩在一起,Excel就是读取这些压缩文件的信息,最后展现出一个完全图形化的电子表格。


所以,如果我们把xlsx文件的后缀更改为.zip或 .rar,再进行解压缩,就能提取出构成Excel的核心源码文件。解压会发现解压后的文件中有3个文件夹和1个XML格式文件:


在这里插入图片描述


_rels 文件夹看里面数据像是一些基础的配置信息,比如 workbook 文件的位置等信息一般不会去动它。


docProps 文件夹下重要的文件是一个app.xml,这里面主要存放了 sheet 的信息,如果想添加或编辑 sheet 需要改这个文件,其他文件都是一些基础信息的数据,比如文件所有者,创建时间等。


x文件夹是最重要的一个文件夹里面存放了Sheet 中的数据,行和列的格式,单元格的格式,sheet的配置信息等等信息。


所以,实际上我们处理的xlsx文件实际上是一个经过高度压缩的文件格式,背后是有好多文件支持的。所以,我们看到的一个文件可能只有2M,但是实际上这个文件未压缩情况下可能要比这大得多。


在这里插入图片描述


也就是说,POI在处理的时候,处理的实际上并不只是我们看到的文件大小,实际上比它的大小要大好几倍。


这是为什么明明我们处理的文件只有100多兆,但是实际却可能占用1G内存的其中一个原因。当然这只是其中一个原因,还有一个原因,我们就需要深入到POI的源码中来看了


✅1.2 POI的溢出原理


我们拿POI的文件读取来举例,一般来说文件读取出现内存溢出的情况更多一些。以下是一个POI文件导出的代码示例:


import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class ExcelReadTest {
    public static void main(String[] args) {
        //指定要读取的文件路径
        String filename = "example.xlsx";
        try (FileInputStream fileInputStream = new FileInputStream(new File(filename))) {
            //创建工作簿对象
            Workbook workbook = new XSSFWorkbook(fileInputStream);
            
            // 获取第一个工作表
            Sheet sheet = workbook.getSheetAt(0);
            
            //遍历所有行
            for (Row row : sheet) {
                // 遍历所有单元格
                for (Cell cell : row) {
                    Thread.sleep(100); //添加注释:暂停程序执行100毫秒
                    
                    // 根据不同数据类型处理数据
                    switch (cell.getCellType()) {
                        case STRING:
                            System.out.print(cell.getStringCellValue() + "\t"); //添加注释:输出单元格的字符串值
                            break;
                        case NUMERIC:
                            if (DateUtil.isCellDateFormatted(cell)) {
                                System.out.print(cell.getDateCellValue() + " t"); //添加注释:输出单元格的日期值
                            } else {
                                System.out.print(cell.getNumericCellValue() + " t"); //添加注释:输出单元格的数值
                            }
                            break;
                        case BOOLEAN:
                            System.out.print(cell.getBooleanCellValue() + " t"); //添加注释:输出单元格的布尔值
                            break;
                        case FORMULA:
                            System.out.print(cell.getCellFormula() +"t"); //添加注释:输出单元格的公式
                            break;
                        default:
                            System.out.print(""); //添加注释:不做任何操作
                    }
                }
                System.out.println(); //添加注释:换行
            }
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            throw new RuntimeException(e);
        }
    }
}


这里面用到了一个关键的XSSFWorkbook类,


public XSSFWorkbook(InputStream is) throws IOException {
	
	this(PackageHelper.open(is);
}
public static OPCPackage open(InputStream is) throws IOException {

	
	
	try {
		
		return OPCPackage.open(is);
		
	}catch (InvalidFormatException e) {
		
		throw new POIXMLException(e);
		
	}
}

最终会调用到OPCPackage.open方法,看看这个方法是怎么实现的:


/**
 *  Open a package.
 *
 * 
 * Note - uses quite a bit more memory than (@link #open(String)}, which
 * doesn't need to hold the whole zip file in memory, and can take advantage
 * of native methods
 * 
 *aparam in
 *
 *           The InputStream to read the package from
 *           
 * @return A PackageBase object
 * 
 * 
 * @throws InvalidFormatException
 * 
 *               Throws if the specified file exist and is not valid. 
 *               
* @throws IOException If reading the stream fails
*/

public static OPCPackage open(InputStream in) throws InvalidFormatException,IOException {
    OPCPackage pack = new ZipPackage(in,PackageAccess.READ_WRITE);
    try {
    	
  
    	if (pack.partList == nul1) {
    		(pack.getParts();
    	}
    	
    }catch (InvalidFormatException  RuntimeException e) {
    	

    	IOUtils.close0uietly(pack);
    	
    	throw e;
    }
return pack;
}

这行代码的注释中说了:这个方法会把整个压缩文件都加载到内存中。也就是把整个 Excel 文档加载到内存中,可想而知,这在处理大型文件时是肯定会导致导致内存溢出的。


也就是说我们使用的XSSFWorkbook (包括HSSFWorkbook也同理) 在外理Excel的过程中会将整个Excel都加载到内存中,在文件比较大的时候就会导致内存溢出。


✅ 二、拓展知识仓


✅2.1 几种Workbook格式

POI中提供了很多种Workbook API来操作Excel,有的适合大文件读写,有的不适合。


SSFWorkbook

  • 用于处理Excel的.xsl格式(即Excel 97-2003)。

XSSFWorkbook

  • 用于处理 Excel 的.xlsx 格式(即 Excel 2007 及以后版本的)支持更大的数据集和更多的功能,如更好的样式和公式支持。但是相对于HSSFWorkbook,它在处理大数据集时可能占用更多内存。

SXSSFWorkbook


  • 用于处理xlsx 格式。它是 XSSFWorkbook 的流式版本,专门设计用于处理大数据集。通过将数据写入临时文件而非全部保留在内存中,显著减少内存消耗。特别适合用于创建大型数据集的 Excel 文件。

✅2.2 SXSSFWorkbook是什么


SXSSFWorkbook是Apache POI库中的一个类,用于处理大型Excel文件的写入,特别是当数据量可能非常大,以至于无法全部装入内存时。它是XSSFWorkbook的一个流式(streaming)版本,主要用于生成大数据量的Excel文件(.xlsx格式)。


SXSSFWorkbook的工作原理是,它只会将最新的几行数据(这个数量是可配置的)保存在内存中。当新的行被添加到工作表时,最旧的行将被写入到磁盘上的临时文件中,并从内存中删除。这样,SXSSFWorkbook可以用有限的内存处理几乎无限的数据量。


需要注意的是,一旦数据被写入到磁盘上的临时文件中,就不能再修改这些数据。此外,由于SXSSFWorkbook使用了流式写入技术,它的写入速度可能会受到磁盘速度的影响。


总的来说,如果你的应用程序需要生成大数据量的Excel文件,并且你担心内存溢出的问题,那么SXSSFWorkbook可能是一个很好的选择。


✅2.3 SXSSFWorkbook有哪些优点和缺点


SXSSFWorkbook是Apache POI库中的一个类,用于以流方式处理Excel文件的写入,特别是针对无法全部装入内存的大数据量场景。以下是SXSSFWorkbook的主要优点和缺点:


优点

  1. 内存友好:SXSSFWorkbook使用了一种基于硬盘的临时存储方式,将数据写入临时文件,而不是将所有数据存储在内存中。这使得它可以处理非常大的数据集,而不会导致内存溢出。
  2. 高性能:由于SXSSFWorkbook使用了临时文件存储数据,它可以有效地处理大量的数据。它避免了在内存中处理大量数据所带来的性能问题。
  3. 低内存占用:相较于XSSFWorkbook,SXSSFWorkbook在处理大型数据集时,占用的内存更少。这使得它在处理大数据量时表现更好。

缺点

  1. 模板限制:SXSSFWorkbook不支持使用现有的XLSX文件作为模板,因为它是基于流式写入的,无法预先加载整个模板文件到内存中。因此,它不能使用模板打印。
  2. IO操作开销:在写磁盘过程中,SXSSFWorkbook可能会消耗较多的IO操作时间。这可能导致内存中产生很多对象,但原来的对象可能还没有完整写入磁盘中。
  3. 功能限制:相比XSSFWorkbook,SXSSFWorkbook在某些高级功能方面可能有所限制,例如复杂的样式或公式支持可能不完全相同。另外,因为它使用到了硬盘,当数据到达硬盘以后,无法完成数据的克隆或者公式计算,sheet.clone()等方法已经无法被支持。

这些优缺点可能会随着Apache POI库的更新而发生变化。在使用SXSSFWorkbook时,建议查阅最新的官方文档以获取最准确的信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1414213.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

六、Kotlin 类型进阶

1. 类的构造器 & init 代码块 1.1 主构造器 & 副构造器在使用时的注意事项 & 注解 JvmOverloads 推荐在类定义时为类提供一个主构造器; 在为类提供了主构造器的情况下,当再定义其他的副构造器时,要求副构造器必须调用到主构造器…

2024年预制菜行业市场发展趋势分析(2021-2023年预制菜行业数据分析)

近期,老干妈被称为预制菜、预制菜国标报送稿出炉等事件再次引起大众对于预制菜市场的讨论。随着国家对预制菜审核标准的严格化,预制菜市场未来走向将会如何?鲸参谋带大家从数据角度来了解。 首先来看下预制菜市场的行业发展情况。 根据鲸参…

Linux 驱动开发基础知识—— LED 驱动程序框架(四)

个人名片: 🦁作者简介:一名喜欢分享和记录学习的在校大学生 🐯个人主页:妄北y 🐧个人QQ:2061314755 🐻个人邮箱:2061314755qq.com 🦉个人WeChat:V…

Python第三方扩展库NumPy

Python第三方扩展库NumPy NumPy(Numerical Python,注意使用时全部小写 numpy) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 在Windows平台上安装numpy,可在cmd命令…

python使用PaddleOCR实现《命名实体识别项目》OCR(已实现)(ai领域必看,简单易用)

1.简介: PaddleOCR是飞桨(PaddlePaddle)推出的一个端到端的光学字符识别开源工具集,支持中文、英文、数字以及特殊符号等各种类型的文字检测、识别和词语整体识别。该工具集使用PaddlePaddle深度学习框架技术,提供了多…

jenkins发布失败

今天用jenkins发布项目时失败了,而前几天还好好的。 云控制台看了下,发现根本就没打包。 报错如下: 从控制台可以看出,项目依赖没有下载下来,所以打包失败了。 根本原因是:在配置中给yarn指定的淘宝仓库…

day31_HTML

今日内容 0 复习昨日 1 表格标签 2 表单标签【重要】 3 框架标签 0 复习昨日 Javaweb开发,前端,服务器,数据库 前端,要学习HTML,CSS,JavaScript,JQuery HTML是用来编写网页的一种编程语言 语法 由各种标签组成,标签是尖括号<>,一般都是成对儿出现,前面叫做开标签,后面…

【代码随想录-数组】移除元素

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

OJAC近屿智能张立赛博士揭秘GPT Store:技术创新、商业模式与未来趋势

Look&#xff01;&#x1f440;我们的大模型商业化落地产品&#x1f4d6;更多AI资讯请&#x1f449;&#x1f3fe;关注Free三天集训营助教在线为您火热答疑&#x1f469;&#x1f3fc;‍&#x1f3eb; 亲爱的伙伴们&#xff1a; 1月31日晚上8:30&#xff0c;由哈尔滨工业大学的…

【数据结构】栈、队列、数组、列表

数据结构是什么&#xff1f; 数据结构是计算机存储、组织数据的方式 是指数据相互之间是以什么方式排列在一起的。 数据结构是为了更加方便的管理和使用数据&#xff0c;需要结合具体的业务场景来进行选择。一般情况下&#xff0c;精心选择的数据结构可以带来更高的运行或者…

张维迎《博弈与社会》笔记(3)个体理性行为

博弈论的方法论 经济学、社会学、心理学的区别 上一节我们分析了社会的两个基本问题&#xff0c;从中可以发现&#xff0c;无论是解决协调问题还是合作问题&#xff0c;都需要我们对个人行为有深入认识。实际上&#xff0c;所有的社会科学都可看成是有关人类行为的科学&#x…

CTFshow元旦水友赛web部分题解

1.easy_include 看题目是一个文件包含题 post的内容被过滤掉.&#xff0c;而且开头必须是字母&#xff0c;但是如果想要文件包含需要file:///xxxx,这里开头就是/了&#xff0c;所以需要绕过&#xff0c;file伪协议可以用file://localhost路径让绕过开头必须是字母。 可以看…

移动Web——平面转换-平移

1、平面转换-平移 取值 像素单位数值百分比&#xff08;参照盒子自身尺寸计算结果&#xff09;正负均可 技巧 translate()只写一个值&#xff0c;表示沿着X轴移动单独设置X或Y轴移动距离&#xff1a;translateX()或translateY() <!DOCTYPE html> <html lang"en&q…

微信小程序开发 调查问卷

1. 需求 开发一个“调查问卷”的案例来学习常用表单组件的使用&#xff0c;收集用户填写胡表单信息提交给服务器&#xff0c;或者从服务器获取数据后显示在表单中。调查问卷分为单选、多选、单行填空、多行填空&#xff0c;选项为必填时候&#xff0c;提交弹出必填项未提交提示…

Redis2-事务 连接Java 整合springboot 注解缓存

一、订阅和发布 Redis 发布订阅 (pub/sub) 是一种消息通信模式&#xff1a;发送者 (pub) 发送消息&#xff0c;订阅者 (sub) 接收消息。 Redis 客户端可以订阅任意数量的频道。 Redis的发布和订阅 客户端订阅频道发布的消息 频道发布消息 订阅者就可以收到消息 发布订阅的代…

蓝桥杯备赛 week 4 —— DP 背包问题

目录 &#x1f308;前言&#x1f308;&#xff1a; &#x1f4c1; 01背包问题 分析&#xff1a; dp数组求解&#xff1a; 优化&#xff1a;滚动数组&#xff1a; &#x1f4c1; 完全背包问题 &#x1f4c1; 总结 &#x1f308;前言&#x1f308;&#xff1a; 这篇文章主…

联合 Maxlinear 迈凌 与 Elitestek 易灵思 - WPI 世平推出基于 FPGA 芯片的好用高效电源解决方案

近期 WPI 世平公司联合 Maxlinear 迈凌电源产品搭配 Elitestek 易灵思 FPGA 共同合作推出基于 FPGA 芯片的好用高效电源解决方案。 Elitestek 易灵思 FPGA 核心产品有 2 大系列 : Trion 系列与钛金系列。Trion 系列主要特点是 : 1. 40nm 工艺 2. 超低功耗 ( 可低至竞争对手的 …

修复idea,eclipse ,clion控制台中文乱码

控制台乱码问题主要原因并不在编译器IDE身上&#xff0c;还主要是Windows的控制台默认编码问题。。。 Powershell&#xff0c;cmd等默认编码可能不是UTF-8&#xff0c;无需改动IDE的settings或者properties&#xff08;这治标不治本&#xff09;&#xff0c;直接让Windows系统…

上位机图像处理和嵌入式模块部署(python opencv)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面我们谈到了qt&#xff0c;谈到了opencv&#xff0c;也谈到了嵌入式&#xff0c;但是没有说明python在这个过程当中应该扮演什么样的角色。open…

TCP的连接和关闭的那些事

一、基础概念 1、啥是TCP&#xff1f; 它是面向连接的一种协议&#xff0c;任何数据发送之前都需要建立连接。 2、TCP/IP协议的四层中那一层&#xff1f; TCP位于运输层&#xff0c;详见下图 3、TCP协议的状态机有哪些? 在链接建立和断开不同阶段都有不同的状态&#xf…