iText生成PDF文件

news2024/10/6 12:22:33

导语:

        本文基于 iText7 :7.1.16 生成。 官方文档链接:iText

        从版本入口可进入到下面页面 

一、引言

         常见生成PDF文件的有两种方法,一是先生成 word文档,然后将word转换成PDF文件;另一种则是直接生成PDF文件。

1.1.word转换PDF

1.1.1.技术介绍 

        生成Word文件并将其转换为PDF文件,可以使用多种Java库和JAR包。以下是一些常用的库和JAR包:

  1. Apache POI:这是一个用于操作Microsoft Office格式文件的Java库。你可以使用它来创建和编辑Word文档(.doc或.docx)。
  2. Spire.Doc for Java:这是一个功能强大的Java库,用于创建、编辑、转换和打印Word文档。它支持将Word文档转换为PDF格式。Spire.Doc for Java的JAR包可以直接添加到你的Java项目中。
  3. Aspose.Words for Java:Aspose.Words是一个用于处理Word文档的Java库,它提供了丰富的API来创建、编辑和转换Word文档。这个库也支持将Word文档转换为PDF。
  4. iText:虽然iText主要用于处理PDF文件,但它也可以与其他库(如Apache POI或Spire.Doc)结合使用,以实现从Word到PDF的转换。iText的JAR包可用于在Java项目中添加PDF处理功能。

        而Word到PDF转换的步骤如下所示:

  1. 生成Word文件并保存:使用Apache POI或Spire.Doc的API创建或编辑Word文档。将编辑后的Word文档保存到磁盘上的某个位置。
  2. 转换Word为PDF并保存:使用Spire.Doc或Aspose.Words的API将Word文档转换为PDF格式。这通常涉及读取Word文档、创建一个PDF文档,然后将Word文档的内容复制到PDF文档中。将转换后的PDF文档保存到磁盘上的指定位置。

 1.1.2.补充说明

        由上述说明可知,生成一次PDF文件需要保存两次,这极大的浪费了系统的内存;同时,word转换PDF有限制,只能转换少量页数,当大文件转换时,就需要进入收费阶段了。种种限制,让这种方法变得并不实用。 

1.2.iText7 生成PDF 

        iText是一个开源库,用于创建和操作PDF文件。本文则主要用 iText 7 进行测试与文件生成。pom核心jar文件: 

<!--  核心jar,用于生成PDF文件 --->
        <dependency>
            <groupId>com.itextpdf</groupId>
            <artifactId>itext7-core</artifactId>
            <version>7.1.16</version>
            <type>pom</type>
        </dependency>


<!--  用于日志打印,可用可不用--->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.20</version>
            <scope>compile</scope>
        </dependency>

<!--  用于数据库连接,可用可不用--->
        <dependency>
            <groupId>org.mybatis.spring.boot</groupId>
            <artifactId>mybatis-spring-boot-starter</artifactId>
            <version>1.1.1</version>
        </dependency>

二、工具类

2.1.代码示例 

import com.itextpdf.io.font.PdfEncodings;
import com.itextpdf.kernel.font.PdfFont;
import com.itextpdf.kernel.font.PdfFontFactory;
import com.itextpdf.kernel.geom.PageSize;
import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfWriter;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.*;
import com.itextpdf.layout.property.HorizontalAlignment;
import com.itextpdf.layout.property.TextAlignment;
import lombok.extern.slf4j.Slf4j;
import org.springframework.stereotype.Component;
//import com.itextpdf.layout.property.UnitValue;


import java.io.IOException;
import java.util.List;

@Slf4j
@Component
public class PdfGenerator {


    public void createPdf(String fileName, String title, String titleRow, String[] headerText, List<String[]> data) throws IOException {
        PdfDocument pdfDoc = new PdfDocument(new PdfWriter(fileName));
        Document doc = new Document(pdfDoc, PageSize.A4);

        // 设置字体  simhei.ttf黑体  SimSun宋体
        PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, true);
//        PdfFont font = PdfFontFactory.createFont("SimSun", "UniGB-UCS2-H", false);

//        String text = "文章内容";
//        if (null != text){
//            txtSet(doc,text,font);
//        }

        // 设置标题
        if (null != title){
            titleSet(doc,title,font);
        }

        // 创建表格
        int numColumns = (null == headerText) ? data.get(0).length : headerText.length;
        Table table = new Table(numColumns);
//        table.setWidth(UnitValue.createPercentValue(100)); // 表格宽度设置为100%  
//        table.setFixedPosition(1, 1, 1); // 设置表格在页面上的位置(可选)  
        if (!(null == titleRow)){
            titleCell(table,titleRow,headerText.length,font);     // 添加标题行
        }
        // 添加表头
        for (int i = 0; i < headerText.length; i++) {
            headerCell(table,headerText[i],font);
        }
        //添加内容
        for (int i = 0; i < data.size(); i++) {
            for (int j = 0; j < data.get(i).length; j++) {
                contextCell(table,data.get(i)[j],font);
            }
        }
        // 使用Div容器来居中表格
        Div div = new Div();
        div.setHorizontalAlignment(HorizontalAlignment.CENTER); // 设置Div水平居中
        div.add(table); // 将表格添加到Div中
        // 将Div添加到文档中
        doc.add(div);
        // 关闭文档
        doc.close();
        log.info(fileName+"Pdf文件创建成功!");
    }

    //设置文本
    public void txtSet(Document doc,String data,PdfFont font){
        Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12);
        doc.add(titleText);
    }
    //设置标题
    public void titleSet(Document doc,String data,PdfFont font){
        Paragraph titleText = new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(20);
        doc.add(titleText);
    }
    //设置标题行
    public void titleCell(Table table,String data,int col,PdfFont font){
        Cell headerCell = new Cell(1,col).add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(14));
        table.addCell(headerCell);
    }
    //设置表头
    public void headerCell(Table table,String data,PdfFont font){
        Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(12));
        table.addCell(cell);
    }
    //设置内容
    public void contextCell(Table table,String data,PdfFont font){
        Cell cell = new Cell().add(new Paragraph(data).setTextAlignment(TextAlignment.CENTER).setFont(font).setFontSize(10));
        table.addCell(cell);
    }

}

 2.2.示例解释

2.2.1.字体 

         PdfFont font = PdfFontFactory.createFont("simhei.ttf", PdfEncodings.IDENTITY_H, false);同PdfFontFactory.createFont(new File("path/to/font.ttf"), PdfEncodings.IDENTITY_H, true)。

        这行代码的主要目的是加载一个名为“simhei.ttf”的字体文件,并使用Unicode编码方式,但不将其嵌入到生成的PDF文档中。

        PdfFontFactory.createFont(): PdfFontFactory是iText库中的一个工具类,用于创建PdfFont对象。它的createFont()方法是创建新字体的主要方法。
        "simhei.ttf": 这是字体文件的路径或名称。在这个例子中,它指的是“黑体”字体的TrueType字体文件(.ttf)。你需要确保这个字体文件在你的项目路径下是可用的,或者提供完整的文件路径。该字体在网上容易下载,所以本文没有提供。实在找不到的,可以使用下面的宋体(SimSun)。字体很重要,因为个别时候会中文乱码。
        PdfEncodings.IDENTITY_H: 这是字体的编码方式。PdfEncodings.IDENTITY_H通常用于Unicode字体,确保在PDF文档中正确地表示和显示字符。
        false: 这个布尔值参数通常用于指示字体是否应该被嵌入到生成的PDF文档中。设置为false意味着字体不会被嵌入,这通常在你确定阅读PDF的客户端已经安装了该字体时是可行的。但是,为了确保最大的兼容性,通常建议将字体嵌入到PDF中,因此你可能会将这个值设置为true。

        值得一提的是,iText5 和 iText7 创建字体所用的方法不一样。

        iText5: 

BaseFont baseFont = BaseFont.createFont("path/to/simhei.ttf", 
BaseFont.IDENTITY_H, BaseFont.EMBEDDED);  
Font font = new Font(baseFont, 12);

        iText7: 

PdfFont font = PdfFontFactory.createFont("path/to/simhei.ttf", 
PdfEncodings.IDENTITY_H, true);

2.2.2.文章内容 

         “文章内容” 被注掉了,该内容本应由方法入口传入,但我这里为测试大数据生成文件,所以正文由表格组成。把注释放开,并把内容加到方法入口,该工具类使用起来就就更全面。

2.2.3. div标签的使用 

        在 iText 7 中,并没有表格居中的设置,所以如果需要表格居中,通常使用div。在iText 7中,设置表格居中通常涉及设置表格的对齐属性或者将表格放置在一个容器元素中,如Div,并设置该容器的对齐属性。

        Div元素允许您将多个内容元素(如段落、表格、图像等)组合在一起,并设置这些元素的整体属性,比如对齐方式、边距、填充等。这对于创建具有特定布局和样式的内容块非常有用。

        如果您在尝试使用Div元素时遇到问题,可能是因为您没有正确地导入相关的包或类。请确保您的项目中包含了iText 7的依赖,并且您已经导入了com.itextpdf.layout.element.Div类。

2.3.测试结果

        测试一日志打印: 

: /data/NFS/bypay\20240417\20240417_6a9c1b1b_1.pdfPdf文件创建成功!

: 表格数据字节数1191974,运行时间97951ms

        测试一文件展示:(表格行数3.8W)

         测试二日志打印:

: /data/NFS/bypay\20240422\20240422_27ccb22b_1.pdfPdf文件创建成功!

: 表格数据字节数3760636,运行时间917214ms

        测试二文件展示:(表格行数12W+)

        测试三日志打印:

: /data/NFS/bypay\20240407\20240407_a60bda47_1.pdfPdf文件创建成功!

: 表格数据字节数4916250,运行时间1602610ms

         测试三文件展示:(表格行数17W+)

2.4.缺点分析 

        由上述示例可知,仅仅几M 大小的文件,就需要10min+来处理数据,而10M+的数据,更是用了26min+,这严重占用了系统内存,生成效率更是低下。

        第一、回顾测试工具类,发现在每添加一个单元格,都会新建一个Cell单元格对象,每个Cell里还会添加一个Paragraph段落对象,7*17W*2 ≈ 240W,这些对象都会被分配在堆内存中,因为对象实例总是存储在堆中。因此,这个操作会对堆内存造成显著影响。如果堆内存不足以容纳这么多对象,程序可能会抛出OutOfMemoryError

        第二,可以看到,每创建一个Cell,都会进行一次I/O操作,这也严重影响了系统性能。

        第三, fileName 如果涉及未创建目录,也会抛出 java.io.FileNotFoundException,所以,还需要对方法进行改造。

三、方法优化 

3.1.优化思路 

3.1.1.分块处理数据

        不要一次性加载所有数据到内存中。相反,你应该分块或分页加载数据,并为每块或每页数据创建PDF内容。这样,你可以控制内存使用,并避免因内存溢出而导致的错误。

3.1.2.使用流式API

        iText7提供了流式API,允许你逐步构建PDF文档,而不是一次性将所有内容加载到内存中。这对于处理大量数据特别有用。我上面的创建方式就是流式API,其核心思路就是:

  1. 创建Document对象:首先,你需要创建一个Document对象,它代表你要生成的PDF文档。

  2. 使用Table:在流式API中,你仍然使用Table类来创建表格,但是你会以不同的方式添加内容。

  3. 创建Cell对象:对于每个单元格,你可以创建一个Cell对象,并设置其内容和样式。

  4. 添加CellTable:然后,将单元格的Cell对象添加到Table中。

  5. Table添加到Document:最后,将表格添加到文档中。

3.1.3.优化字体和图像的使用

        如果你在PDF中使用了大量字体或图像,确保它们被有效地重用,而不是为每个页面或每个元素都加载一个新的实例。

3.1.4.减少复杂的布局和格式

        复杂的布局和格式可能会增加PDF生成的时间和内存使用。尽量使用简单的布局和格式,或考虑在必要时使用分页和表格来组织数据。

3.1.5.使用缓存

        对于重复使用的对象(如字体、颜色、样式等),考虑使用缓存来减少内存分配和垃圾收集的开销。

3.1.6.异步处理或多线程

        如果可能的话,你可以考虑使用异步处理或多线程来并行处理数据。这样,你可以同时处理多个数据项,而不是一个接一个地顺序处理。但请注意,多线程操作可能会增加代码的复杂性,并需要处理线程安全和同步问题。

3.1.7.监控和调优

        使用性能分析工具来监控你的代码,并找出可能的瓶颈。根据分析结果,对代码进行调优,以提高PDF生成的速度和效率。

3.1.8.考虑其他解决方案

        如果iText7无法满足你的性能需求,你可能需要考虑其他解决方案,如使用数据库报告工具或专门的PDF生成库(如Aspose.PDF、FOP等)。

3.1.9.升级硬件和配置

        确保你的服务器或开发机器具有足够的RAM和CPU资源来处理大量数据。根据需要调整JVM参数,如堆大小(Xmx),以优化内存使用。

3.1.10.测试和验证

        在将解决方案部署到生产环境之前,确保在测试环境中充分测试你的代码。验证生成的PDF文件的准确性和完整性,并测试在不同数据量和配置下的性能。

3.2.工具类优化

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1626286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaEE--多线程学习-进程调度

进程调度不明白&#xff1f;看这一篇文章就够了&#xff0c;逻辑衔接严密&#xff0c;文末附有关键面试题&#xff0c;一个海后的小故事让你瞬间明白这里面的弯弯绕绕&#xff01; 目录 1.什么是进程&#xff1f; 2.进程控制块&#xff08;PCB&#xff09; 2.1 一个PCB就是一…

多数据源注解使用

<dependency><groupId>com.baomidou</groupId><artifactId>dynamic-datasource-spring-boot-starter</artifactId><version>3.5.0</version> </dependency> 1.使用mybatis-plus 如何配置多数据源&#xff0c;application-loc…

《QT实用小工具·三十五》基于PathView,Qt/QML做的一个可以无限滚动的日历控件

1、概述 源码放在文章末尾 改项目实现了基于PathView&#xff0c;Qt/QML做的一个可以无限滚动的日历控件&#xff0c;下面是demo演示&#xff1a; 项目部分代码如下所示&#xff1a; import QtQuick 2.7 import QtQuick.Controls 1.4 import QtQuick.Controls.Styles 1.4Bu…

Qt:学习笔记一

一、工程文件介绍 1.1 main.cpp #include "widget.h" #include <QApplication> // 包含一个应用程序类的头文件 //argc&#xff1a;命令行变量的数量&#xff1b;argv&#xff1a;命令行变量的数组 int main(int argc, char *argv[]) {//a应用程序对象&…

深度学习突破:LLaMA-MoE模型的高效训练策略

在人工智能领域&#xff0c;大模型&#xff08;LLM&#xff09;的崛起带来了前所未有的进步&#xff0c;但随之而来的是巨大的计算资源需求。为了解决这一问题&#xff0c;Mixture-of-Expert&#xff08;MoE&#xff09;模型架构应运而生&#xff0c;而LLaMA-MoE正是这一架构下…

屌爆了,国产智能体的爆发性增长:一周数据揭秘

前言 自从4.19接入国内智能体 探索国产智能体&#xff1a;从GPTs使用热潮到本土模型的崛起 截止到今天(4.26)&#xff0c;仅仅一周时间&#xff0c;数据太让我意外了&#xff0c;这篇文章就来总结一下&#xff01; 这一次&#xff0c;我为国产智能体崛起&#xff0c;代言!!! 惊…

释放Stable Diffusion 无限可能

最近在整理大语言模型的系列内容&#xff0c;Stable Diffusion 是我下一篇博客的主题。关注 Stable Diffusion&#xff0c;是因为它是目前最受欢迎和影响力最大的多模态生成模型之一。Stable Diffusion 于 2022 年 8 月发布&#xff0c;主要用于根据文本的描述产生详细图像&…

《欢乐钓鱼大师》攻略,钓友入坑必备!

欢迎来到《欢乐钓鱼大师》&#xff01;在这个游戏里&#xff0c;你可以尽情享受垂钓的乐趣&#xff0c;通过不断更换和升级高阶鱼竿&#xff0c;轻松地钓到各种稀有鱼类。因为许多玩家在挑战关卡时遇到了一些困难&#xff0c;所以今天我给大家带来了《欢乐钓鱼大师攻略指南》&a…

第 3 篇 : Netty离线消息处理(可跳过)

说明 仅是个人的不成熟想法, 未深入研究验证 1. 修改 NettyServerHandler类 package com.hahashou.netty.server.config;import com.alibaba.fastjson.JSON; import io.netty.channel.Channel; import io.netty.channel.ChannelHandler; import io.netty.channel.ChannelHan…

Vue3中使用无缝滚动插件vue3-seamless-scroll

官网&#xff1a;https://www.npmjs.com/package/vue-seamless-scroll 1、实现效果文字描述&#xff1a; 表格中的列数据进行横向无缝滚动&#xff0c;某一列进行筛选的时候&#xff0c;重新请求后端的数据&#xff0c;进行刷新 2、安装&#xff1a;npm i vue3-seamless-scrol…

从Kafka的可靠性设计体验软件设计之美

目录 1. Kafka可靠性概述 2. 副本剖析 2.1 什么是副本 2.2 副本失效场景 2.3 数据丢失场景 2.4 解决数据丢失方案 3. 日志同步机制 4. 可靠性分析 1. Kafka可靠性概述 Kafka 中采用了多副本的机制&#xff0c;这是大多数分布式系统中惯用的手法&#xff0c;以此来实现水平扩…

异步日志方案spdlog

异步日志方案spdlog spdlog 是一款高效的 C 日志库&#xff0c;它以其极高的性能和零成本的抽象而著称。spdlog 支持异步和同步日志记录&#xff0c;提供多种日志级别&#xff0c;并允许用户将日志输出到控制台、文件或自定义的接收器。 多线程使用和同步、异步日志没有关系是…

10.接口自动化测试学习-Pytest框架(2)

1.mark标签 如果在每一个模块&#xff0c;每一个类&#xff0c;每一个方法和用例之前都加上mark标签&#xff0c;那么在pytest运行时就可以只运行带有该mark标签的模块、类、接口。 这样可以方便我们执行自动化时&#xff0c;自主选择执行全部用例、某个模块用例、某个流程用…

indexDB 大图缓存

背景 最近在项目中遇到了一个问题&#xff1a;由于大屏背景图加载速度过慢&#xff0c;导致页面黑屏时间过长&#xff0c;影响了用户的体验。从下图可以看出加载耗时将近一分钟 IndexDB 主要的想法就是利用indexDB去做缓存&#xff0c;优化加载速度&#xff1b;在这之前&am…

自动驾驶传感器篇: GNSSIMU组合导航

自动驾驶传感器篇&#xff1a; GNSS&IMU组合导航 1.GNSS1.1 GNSS 系统概述1.2 GNSS系统基本组成1. 空间部分&#xff08;Space Segment&#xff09;&#xff1a;2. 地面控制部分&#xff08;Ground Control Segment&#xff09;&#xff1a;3. 用户设备部分&#xff08;Use…

python爬虫-----深入了解 requests 库下篇(第二十六天)

&#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; &#x1f388;&#x1f388;所属专栏&#xff1a;python爬虫学习&#x1f388;&#x1f388; ✨✨谢谢大家捧场&#xff0c;祝屏幕前的小伙伴们每天都有好运相伴左右&#xff0c;一定要天天…

电影交流|基于SprinBoot+vue的电影交流平台小程序系统(源码+数据库+文档)

电影交流平台目录 目录 基于SprinBootvue的电影交流平台小程序系统 一、前言 二、系统设计 三、系统功能设计 1用户信息管理 2 电影信息管理 3公告信息管理 4论坛信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取…

Oracle delete删除数据是否为逻辑删除、新插入数据占用的数据块位置实验

假设一&#xff1a;数据库delete删除为直接删除 假设二&#xff1a;数据库delete删除为逻辑删除&#xff0c;在数据块标记出来&#xff0c;但是实际并没有删除。 方式一&#xff1a;通过dump数据块的方式来实现 我们先用小数据量&#xff0c;通过dump数据块的方式来实现 -- 数…

Activity界面什么都不显示怎么解决

如图&#xff0c;有可能是你重写错了方法&#xff0c;两个onCreate方法非常像&#xff0c;参数不同&#xff0c;正确方法如下&#xff1a;

003基于SSM的学生选课系统(学生信息管理系统)ssm+mysql

003基于SSM的学生选课系统/学生信息管理系统 开发环境&#xff1a; Eclipse/MyEclipse、Tomcat8、Jdk1.8 数据库&#xff1a; MySQL 前端&#xff1a;JavaScript、jQuery、bootstrap4、particles.js 后端&#xff1a;maven、SpringMVC、MyBatis、ajax、mysql读写分离、mybat…