Java 导出大数据到 Excel 表格

news2025/3/4 17:20:28

背景

之前的项目一直是用XSSFWorkbook来做 Excel 导出,在遇到大数据导出时,经常会遇到 OOM。在 Apache Poi 3.8 之后的版本提供的 SXSSFWorkbook 可以优雅的解决这个问题。

原理

SXSSFWorkbook 被称为流式 API,主要是因为它采用了流式写入(streaming write)机制,能够有效地处理大数据量的 Excel 文件,而不会导致内存溢出(OOM)。以下是它的工作原理和特点:

  1. 流式写入机制
    SXSSFWorkbook 是 Apache POI 提供的一种用于处理大数据量的 Excel 文件格式(XLSX)的 API。它的核心思想是:

只保留部分数据在内存中:SXSSFWorkbook 不会将所有数据一次性加载到内存中,而是通过滑动窗口的方式,只保留当前处理的行数据在内存中。

将数据写入临时文件:当内存中的数据达到一定量时,SXSSFWorkbook 会将数据写入磁盘上的临时文件,从而释放内存。

按需加载:在写入完成后,SXSSFWorkbook 会将临时文件中的数据合并到最终的 Excel 文件中。

这种机制类似于流式处理(streaming),数据像水流一样逐步处理,而不是一次性加载到内存中。

  1. 与 XSSFWorkbook 的区别
    XSSFWorkbook:

适用于小数据量。

将所有数据加载到内存中,生成一个完整的 Excel 文件。

当数据量很大时,容易导致内存溢出(OOM)。

SXSSFWorkbook:

适用于大数据量。

只保留部分数据在内存中,其余数据写入临时文件。

通过流式写入机制,避免内存溢出。

  1. 滑动窗口机制
    SXSSFWorkbook 使用滑动窗口(sliding window)来控制内存中的数据量:

你可以通过构造函数设置窗口大小(即内存中保留的行数)。

SXSSFWorkbook workbook = new SXSSFWorkbook(100); // 内存中最多保留 100 行

当写入的行数超过窗口大小时,最早的行会被写入临时文件,并从内存中移除。

这种方式确保了内存占用始终在一个可控的范围内。
4. 临时文件管理
SXSSFWorkbook 在写入过程中会生成临时文件(通常存储在磁盘上)。

写入完成后,可以通过 workbook.dispose() 清理这些临时文件。

临时文件的存在是流式写入的关键,它允许将数据分批写入磁盘,而不是一次性加载到内存中。

  1. 流式写入的优势
    低内存占用:由于数据是逐步写入磁盘的,内存占用非常低,适合处理大数据量。

支持大数据量:可以轻松处理几十万甚至上百万行的数据。

灵活性:通过调整窗口大小,可以平衡内存占用和性能。

代码示例

import org.apache.poi.xssf.streaming.SXSSFWorkbook;
import org.apache.poi.xssf.streaming.SXSSFSheet;
import org.apache.poi.xssf.streaming.SXSSFRow;
import java.io.FileOutputStream;
import java.io.IOException;

public class SXSSFExample {
    public static void main(String[] args) throws IOException {
        // 创建 SXSSFWorkbook,设置窗口大小为 100 行
        SXSSFWorkbook workbook = new SXSSFWorkbook(100);
        SXSSFSheet sheet = workbook.createSheet("Data");

        // 写入 1000 行数据
        for (int i = 0; i < 1000; i++) {
            SXSSFRow row = sheet.createRow(i);
            row.createCell(0).setCellValue("Row " + i);
            row.createCell(1).setCellValue("Data " + i);
        }
        // 写入到文件
        try (FileOutputStream out = new FileOutputStream("large_data.xlsx")) {
            workbook.write(out);
        }
        // 清理临时文件
        workbook.dispose();
    }
}

其他补充

SXSSFWorkbook 是 Apache POI 提供的用于处理大数据量的 Excel 文件(XLSX 格式)的工具。它的行数上限主要受以下两个因素的限制:

  1. Excel 文件格式的限制
    SXSSFWorkbook 生成的 Excel 文件是基于 Office Open XML (OOXML) 格式的,也就是 .xlsx 文件。这种格式的行数上限是:

最大行数:1,048,576 行(即 2^20 行)。

最大列数:16,384 列(即 2^14 列,列标签为 XFD)。

这是 Excel 本身的限制,与 SXSSFWorkbook 无关。如果你尝试写入超过 1,048,576 行,Excel 会直接报错。

  1. 内存和磁盘的限制
    SXSSFWorkbook 通过流式写入机制将数据写入临时文件,因此它的行数上限还受到以下因素的限制:

磁盘空间:SXSSFWorkbook 会将超出内存窗口大小的数据写入临时文件。如果数据量非常大,临时文件可能会占用大量磁盘空间。

JVM 内存:虽然 SXSSFWorkbook 通过流式写入减少了内存占用,但如果单行数据非常大(例如包含大量列或复杂格式),仍然可能导致内存不足。

操作系统限制:操作系统对单个文件的大小和打开文件数也有限制。

  1. 实际使用中的建议
    行数接近上限时:如果需要写入接近 1,048,576 行的数据,建议将数据拆分到多个工作表中。

优化内存使用:

设置合理的窗口大小(例如 new SXSSFWorkbook(100)),以平衡内存和性能。

避免在单行中存储过多数据或使用复杂格式。

监控磁盘空间:确保磁盘有足够的空间存储临时文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2309587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅克隆与深克隆区别

package d12_api_object;public class Test2 {public static void main(String[] args) throws CloneNotSupportedException {//目标&#xff1a;掌握Object类提供的对象克隆方法//1、protected Object clone():对象克隆User u1 new User(1,"min","1120",…

如何实现小数据的大智能?

大数据可以通过从态到势、从感到知的态势感知过程计算出可能性&#xff0c;如各种大模型&#xff0c;而要通过小数据、小样本获得好的预测结果&#xff0c;可以通过从势到态、从知到感的势态知感过程算计出可能性。 一般情况下&#xff0c;大家常常会提到了大数据和小数据在态势…

打开 Windows Docker Desktop 出现 Docker Engine Stopped 问题

一、关联文章: 1、Docker Desktop 安装使用教程 2、家庭版 Windows 安装 Docker 没有 Hyper-V 问题 3、安装 Windows Docker Desktop - WSL问题 二、问题解析 打开 Docker Desktop 出现问题,如下: Docker Engine Stopped : Docker引擎停止三、解决方法 1、检查服务是否…

基于单片机和蓝牙通讯的简易钢琴控制装置设计

摘要&#xff1a;本文设计了一个基于单片机和蓝牙通讯的简易钢琴演奏控制装置&#xff0c;在 Proteus 中设计绘制了系统电路原理图&#xff0c;在 Keil 中编写了单片机控制程序并导入 Proteus电路原理图中进行了软、硬件交互仿真&#xff0c;设置了手机蓝牙串口调试的键盘设置及…

React Native从入门到进阶详解

React Native知识框架从入门到进阶的问题。首先需要结合我搜索到的资料来整理出结构化的内容。证据中有多本书籍和文章&#xff0c;可能会涉及不同的章节和重点&#xff0c;需要仔细梳理。 首先&#xff0c;根据邱鹏源的《React Native精解与实战》将知识分为入门和进阶两大部分…

STL——list的介绍和模拟实现

前言 本篇博客我们将要开始介绍list这个容器&#xff0c;list是带头双向循环链表&#xff0c;STL标准模板库中实现了list这样方便我们去使用&#xff0c;那么本篇博客我们将脱下list的神秘外衣&#xff0c;介绍它的使用以及模拟实现。 list的介绍 list的底层是带头双向循环链…

go前后端开源项目go-admin,本地启动

https://github.com/go-admin-team/go-admin 教程 1.拉取项目 git clone https://github.com/go-admin-team/go-admin.git 2.更新整理依赖 go mod tidy会整理依赖&#xff0c;下载缺少的包&#xff0c;移除不用的&#xff0c;并更新go.sum。 # 更新整理依赖 go mod tidy 3.编…

go 分布式redis锁的实现方式

go 语言以高并发著称。那么在实际的项目中 经常会用到锁的情况。比如说秒杀抢购等等场景。下面主要介绍 redis 布式锁实现的两种高并发抢购场景。其实 高并发 和 分布式锁 是一个互斥的两个状态&#xff1a; 方式一 setNX&#xff1a; 使用 redis自带的API setNX 来实现。能解决…

深入理解递归:从原理到C++实践

什么是递归&#xff1f; 递归&#xff08;Recursion&#xff09;是编程中一种强大的技术&#xff0c;其核心思想是&#xff1a;函数直接或间接地调用自身。如同俄罗斯套娃一般&#xff0c;每个函数调用都会解开问题的一个层级&#xff0c;直到达到基础条件。 递归三要素&…

MyBatis-Plus 入门详解:从零搭建高效持久层

一、MyBatis-Plus 简介 MyBatis-Plus&#xff08;简称 MP&#xff09;是 MyBatis 的增强工具&#xff0c;在保留 MyBatis 原生功能的基础上&#xff0c;提供了全自动化的 CRUD 操作、强大的分页插件、代码生成器等功能&#xff0c;显著减少开发工作量。与原生 MyBatis 相比&…

阿里云物联网获取设备属性api接口:QueryDevicePropertyData

阿里云物联网接口&#xff1a;QueryDevicePropertyData 说明&#xff1a;调用该接口查询指定设备或数字孪生节点&#xff0c;在指定时间段内&#xff0c;单个属性的数据 比如提取上传到物联网的温度数据 api文档&#xff1a;QueryDevicePropertyData_物联网平台_API文档-阿里…

歌曲分类和流行度预测

1. 项目介绍 本项目从kaggle平台上下载了数据集&#xff0c;该数据集包含了3万多首来自Spotify API 的歌曲&#xff0c;共有23个特征。首先对数据集进行预处理&#xff0c;如重复行、缺失值、标准化处理等。再对预处理后的数据进行探索性分析&#xff0c;观察各变量的分布情况&…

不重启mysql情况下排查慢SQL

查状态 mysql> show variables like %slow_query_log%; 开启慢日志 mysql> set global slow_query_logON; 设置1s超时 mysql> set global long_query_time1; 如果想更小&#xff0c;可以设置0.5 查看慢SQL的日志 cat /var/lib/mysql/localhost-slow.log &…

27、Java 反射机制

15-1 Java 反射机制概述 Reflection&#xff08;反射&#xff09;是被视为动态语言的关键 动态语言&#xff1a;在运行时代码可以根据某些条件改变自身结构。如 C#\JavaScript\PHP 静态语言&#xff1a;运行时结构不可变的语言。如 Java\C\C 问题&#xff1a;通过直接new的方…

Android 端侧运行 LLM 框架 MNN 及其应用

MNN Chat Android App - 基于 MNN 引擎的智能聊天应用 一、MNN 框架简介与工作原理1.1 什么是 MNN&#xff1f;1.2 MNN 的工作原理 二、MNN Chat Android App2.1 MNN Chat 的功能2.2 MNN Chat 的优势2.3 MNN Chat Android App 的使用 三、总结 随着移动端人工智能需求的日益增长…

FPGA学习(一) —— 四位全加器

FPGA学习&#xff08;一&#xff09; —— 四位全加器 文章目录 FPGA学习&#xff08;一&#xff09; —— 四位全加器一、半加器1、半加器的真值表2、Verilog代码实现3、RTL原理图4、波形仿真 二、一位全加器1、一位全加器真值表2、Verilog代码实现3、RTL原理图4、波形仿真 三…

PHP:IDEA开发工具配置XDebug,断点调试

文章目录 一、php.ini配置二、IDEA配置 一、php.ini配置 [xdebug] zend_extension"F:\wamp64\bin\php\php7.4.0\ext\php_xdebug-2.8.0-7.4-vc15-x86_64.dll" xdebug.remote_enable on xdebug.remote_host 127.0.0.1 xdebug.remote_port 9001 xdebug.idekey"…

LINUX网络基础 - 网络编程套接字,UDP与TCP

目录 前言 一. 端口号的认识 1.1 端口号的作用 二. 初识TCP协议和UDP协议 2.1 TCP协议 TCP的特点 使用场景 2.2 UDP协议 UDP的特点 使用场景 2.3 TCP与UDP的对比 2.4 思考 2.5 总结 三. 网络字节序 3.1 网络字节序的介绍 3.2 网络字节序思考 四. socket接口 …

QT实现单个控制点在曲线上的贝塞尔曲线

最终效果: 一共三个文件 main.cpp #include <QApplication> #include "SplineBoard.h" int main(int argc,char** argv) {QApplication a(argc, argv);SplineBoard b;b.setWindowTitle("标准的贝塞尔曲线");b.show();SplineBoard b2(0.0001);b2.sh…

Linux基础开发工具(vim编译器,yum与apt软件安装)

Linux 下载安装软件的方案 源代码安装-》》》非常麻烦与复杂一步错步步错 rmp包安装 -》》》只是安装没有对应的库与依赖相当于只是一个外壳 包管理器进行安装-》》 yum / apt(本篇重点讲解) 1.什么是软件包和软件包管理器 就好⽐ "App" 和 "应⽤商店"…