java基于PDF底层内容流的解析对文本内容进行编辑

news2025/1/12 22:59:55

本文实现了基于坐标位置对PDF内容的底层修改而非覆盖,因此不会出现在某些高级PDF编辑器中可以移除插入内容或者文件随着编辑次数增多而大幅增大(原因是原内容还在文件中)的问题,而且使用的pdfbox是一个开源的、免费的PDF处理库,不需要开源自己的代码或者付费

 一、操作原理

 1、内容流

PDF文档的核心是其“内容流”(Content Stream),这是PDF页面上的所有对象和指令的集合。内容流可以看作一系列指令,这些指令告诉PDF阅读器如何绘制页面上的图形、文本、路径等元素。通过解析和修改这些内容流,能够精准地控制页面上的布局和内容。

 1.1、查看——qpdf工具使用

`qpdf`是一款开源的PDF处理工具,它能够将PDF文件转换成易于人类阅读的格式,并且展示内容流。可以在解压后的qpdf bin目录下使用`qpdf --qdf input.pdf output.qdf`将PDF文件解析为QDF格式,使用文本编辑器打开output.qdf,这样便可以查看其底层内容结构,包括内容流的详细指令。可以通过在代码中设置特殊数值的指令去确定编辑文本内容的指令位置,比如设置 0.0 0.0 1.0 rg(含义见后续 操作符理解)
结果类似:

下载地址:https://github.com/qpdf/qpdf/releases

 1.2、理解——操作符理解

在内容流中,PDF使用了操作符来定义绘制图形、文本及其他内容的行为,理解这些操作符的功能及其顺序是编辑内容流的关键。在操作流中,每个操作符都有自己的作用,比如文本操作符、图形和页面设置相关操作符、其他操作符等,并且它们通常结合使用来实现复杂的排版效果,需要注意,操作符直接是存在顺序的,不同的顺序可能会导致不可预料的不一样的效果,甚至可能无法生效,因此在查看pdf底层内容流结构时需要注意各操作符之间的顺序,在自己的代码中插入对应操作符时也应当按照相同的顺序插入。

常见的文本操作符

 1. `BT` 和 `ET` (Begin Text/End Text)
- `BT`:表示开始一个新的文本对象。文本的所有绘制操作都应位于`BT`和`ET`之间。所有的文本操作(例如字体设置、位置移动等)都需要在这个范围内进行。
- `ET`:表示结束当前的文本对象,之后的操作将不再影响文本。

 2. `Tf` (Text Font and Size)
- 用于设置文本字体和字体大小。语法为:`/FontName FontSize Tf`。
  - `FontName`:字体名称,通常是PDF中定义的字体资源。
  - `FontSize`:字体大小。

  例如,`/F1 12 Tf` 表示将当前的字体设置为`F1`,大小为12。

 3. `Tm` (Text Matrix)
- 用于设置文本矩阵,指定文本的缩放、旋转、位移等变换操作。文本矩阵用于确定文本块的变换效果,包括其位置和方向。语法为:`a b c d e f Tm`。
    - `a`、`b`:水平方向缩放和旋转。
    - `c`、`d`:垂直方向缩放和旋转。
    - `e`、`f`:表示文本对象的X、Y位置(坐标)。

 4. `Tj` (Show Text)
- 显示单行文本。语法为:`(text) Tj`,其中`text`表示要显示的字符串。(text) Tj表示直接显示ASCII或Unicode文本,文本内容以标准字符编码的形式写在括号中,<381a3e7c1afd058c02c8> Tj 表示文本的十六进制编码。PDF支持通过这种方式将字符串编码为字节流,然后通过设置的字体字形表来解释这些字节并将其显示为文本
  例如:`(Hello, PDF!) Tj` 会在当前坐标处显示“Hello, PDF!”。

 5. `TJ` (Show Text with Individual Positioning)
- 与`Tj`类似,但允许为每个字符或字符组设置不同的间距,通常用于调整字符的精确位置。语法为:`[array] TJ`,其中`array`是字符串和调整量的组合。
  例如:`[(Hello) 120 (PDF)] TJ`,表示在“Hello”后移动120单位,然后显示“PDF”。

 6. `Td` 和 `TD` (Move Text Position)
- `Td`:用于在当前文本位置基础上,移动新的位置,语法为:`x y Td`,其中`x`和`y`是移动的水平和垂直距离。
  例如:`10 20 Td`表示将文本的位置向右移动10个单位,向上移动20个单位。
- `TD`:与`Td`相同,但它同时会将文本的行间距重置为新的垂直位移。

 7. `Tm` (Set Text Matrix)
- 这个操作符直接设置文本的矩阵。它提供了精确的位置和变换控制。通常和`Td`一起使用,它指定文本块的位置和缩放。
  
 8. `Tr` (Text Rendering Mode)
- 用于设置文本的渲染模式,语法为:`n Tr`。
  - `n`的取值有:
    - `0`:仅填充文本。
    - `1`:仅描边文本。
    - `2`:同时填充和描边文本。
    - `3`:文本不渲染(但保留空间)。
  
 9. `Tw` (Word Spacing)
- 设置词间距,语法为:`w Tw`。将指定的间距应用到文本对象中的空格字符。
  例如:`10 Tw`表示设置单词之间的间距为10个单位。

 10. `Tc` (Character Spacing)
- 设置字符之间的间距,语法为:`c Tc`。它为文本对象中的每个字符之间增加固定的间距。

 11. `T*` (Move to Next Line)
- 将文本位置移动到下一行,使用的是当前的行间距和文本矩阵。通常用于实现多行文本。

 12. `rg` 和 `RG` (Set RGB Color for Filling/Stroking)
- `rg`:设置填充操作的RGB颜色,语法为:`r g b rg`,其中`r`、`g`、`b`的取值范围是`0`到`1`。
- `RG`:设置描边操作的RGB颜色,语法与`rg`相同。

 13. gG (Set Gray Color for Filling/Stroking)
- `g`:设置灰度填充颜色,语法为:gray g,其中gray的值在01之间,0表示黑色,1表示白色。
- `G`:设置灰度描边颜色,语法与g相同

  14. w (Set Line Width)
- 设置描边线条的宽度。语法为:lineWidth w,例如2 w表示设置线宽为2个单位。

 1.3、扩展——操作后word转pdf

当我们将Word文件转换成PDF时,Word中的文本和图形也会被转换成PDF的内容流。通过对比转换前后的内容,我们可以进一步理解这些操作符的使用。Word文件通常包含较多的复杂格式化信息,这些会被转换成复杂的内容流指令,例如嵌入字体、图像、文本排版等。因此假如要实现某个操作效果,比如加粗或者斜体,则可以先在word中进行操作,然后使用qpdf转为可理解的qdf格式,查看加粗或斜体对应底层内容流的操作符是什么,是如何设值的,进而在自己的代码中照例插入
eg:

 1.4、验证——修改qdf文件查看

通过`qpdf`将PDF转换为QDF格式后,可以手动修改其内容流,例如删除某些操作符、添加新的指令,保存后再用PDF查看器打开以验证修改是否生效。这种实时的修改和验证有助于深入理解内容流的结构和PDF的解析逻辑。

2、处理内容流

 2.1、构造内容流和坐标的对应

(重写PDFTextStripper中的部分方法后与原内容流进行比对处理)
PDFBox中的`PDFTextStripper`类负责提取PDF中的文本内容。通过继承PDFTextStripper重写其中的processOperator(处理操作符)、processTextPosition(处理文本信息,它会在processOperator方法后自动调用)方法,可以获取操作符下标以及每个文本字符的坐标信息,并将其与原始内容流中的纯操作符进行顺序比对和代码处理,即可得到原始内容流和文本坐标的集合,具体可见后续操作代码

 2.2、坐标匹配获取操作符下标

为了编辑PDF中的文本,我们首先需要定位文本在内容流中的位置。通过将输入的坐标位置与PDF内容流中的文本字符坐标进行匹配,可以精确定位到输入坐标在内容流中的位置。

 2.3、对匹配的内容进行修改重组

内容的修改与重组是基于操作符的解析和插入进行的,区分普通文本内容(Tj)和带有字符间距的文本数组(TJ)内容。

2.3.1、删除原匹配文本内容

一旦找到了需要修改的文本块,首先是从内容流中删除原来的文本。可以通过操作符的索引直接将其从内容流中移除。

2.3.2、保持前缀内容重新插入

在删除原文本后,我们通常需要保留匹配坐标前面的文本内容和一些布局信息(例如坐标、字体设置等),这些前缀内容不应被改变,它可以维持前缀的文本内容的布局信息。

2.3.3、自定义新内容插入

在插入新文本时,需要考虑到字体的设置。如果PDF中的字体没有包含新文本所需的字符,可能会导致显示问题,因此通常选择使用系统字体来确保文本正确显示。插入时需要根据坐标和字体等自定义的参数来绘制新的文本块。

2.3.4、后缀内容状态回退插入

由于PDF是通过操作符逐步构建页面的,因此在插入新内容后文本状态可能会发送改变,必须恢复之前的状态再插入原本的后缀内容。这个过程需要回退到匹配文本位置之前的状态,例如字体、坐标、颜色等,然后按重新插入后续内容。

二、使用PDFbox进行操作

1、引入pdfbox依赖

        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.16</version>
        </dependency>

2、重写PDFTextStripper中的方法

import org.apache.pdfbox.contentstream.operator.Operator;
import org.apache.pdfbox.cos.COSBase;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

public class TokenIndexPDFTextStripper extends PDFTextStripper {
    // 存储每个操作符和参数的下标信息
    private List<Object> tokenList = new ArrayList<>();

    public TokenIndexPDFTextStripper() throws IOException {
        super();
    }

    @Override
    protected void processOperator(Operator operator, List<COSBase> arguments) throws IOException {
        // 遍历并记录参数
        for (COSBase argument : arguments) {
            tokenList.add(argument);
        }
        // 记录操作符下标
        tokenList.add(operator);
        // 调用父类的方法以确保文本提取继续正常进行
        super.processOperator(operator, arguments);
    }

    // 扩展方法,获取文本坐标
    @Override
    protected void processTextPosition(TextPosition text) {
        HashMap<String, Object> textPosition = new HashMap<>();
        textPosition.put("text",text.getUnicode());
        // 字符的左下角位置坐标
        // 从左往右的水平位移
        textPosition.put("x",text.getXDirAdj());
        // 从上往下的垂直位移
        textPosition.put("y",text.getYDirAdj());
        textPosition.put("width",text.getWidthDirAdj());
        textPosition.put("height",text.getHeightDir());
        textPosition.put("pageHeight",text.getPageHeight());
        textPosition.put("pageWidth",text.getPageWidth());
        // 将文本位置信息添加到 tokenList 中
        tokenList.add(textPosition);
        System.out.print("\033[31m"+text.getUnicode()+" \033[0m"+text.getXDirAdj()+","+text.getYDirAdj()+" ");
        super.processTextPosition(text);
    }

    public List<Object> getTokenList() {
        return tokenList;
    }
}

3、处理pdf的主方法

/**
 * PDF编辑VO
 */
public class PDFEditVO {
    /**
     * x坐标
     */
    private Float cursorX;

    /**
     * y坐标
     */
    private Float cursorY;

    /**
     * 需要插入的文本
     */
    private String insertText;

    /**
     * 需要删除的字符数
     */
    private Integer deleteNum;

    /**
     * PDF文件路径
     */
    private String path;

    /**
     * 字体名称
     */
    private String fontName;

    /**
     * 字号大小
     */
    private Integer fontSize;

    /**
     * 字体颜色,比如蓝色为0,0,1
     */
    private List<Float> color;

    /**
     * 线宽,一般加粗为 1.0
     */
    private Float lineWidth;

    /**
     * 文本绘制模式(0 填充模式/默认模式;1 描边模式/文本空心描边;2 填充并描边模式;3 不填充不描边模式/不可见;。。。)
     */
    private String textRenderingMode;

    /**
     * 倾斜率,一般斜体为0.3333
     */
    private Float tiltRatio;

    public Float getCursorX() {
        return cursorX;
    }

    public Float getCursorY() {
        return cursorY;
    }

    public String getInsertText() {
        return insertText;
    }

    public Integer getDeleteNum() {
        return deleteNum;
    }

    public String getPath() {
        return path;
    }

    public String getFontName() {
        return fontName;
    }

    public Integer getFontSize() {
        return fontSize;
    }

    public List<Float> getColor() {
        return color;
    }

    public Float getLineWidth() {
        return lineWidth;
    }

    public String getTextRenderingMode() {
        return textRenderingMode;
    }

    public Float getTiltRatio() {
        return tiltRatio;
    }
}
public void editPDF(PDFEditVO editVO) {
        String path = editVO.getPath();
        List<Float> colors = editVO.getColor();
        String outputFilePath = "output.pdf";
        Float cursorX = editVO.getCursorX();
        Float cursorY = editVO.getCursorY();
        Integer deleteNum = editVO.getDeleteNum();
        String insertText = editVO.getInsertText();
        String fontName = editVO.getFontName();
        Integer fontSize = editVO.getFontSize();
        Float lineWidth = editVO.getLineWidth();
        String textRenderingMode = editVO.getTextRenderingMode();
        Float tiltRatio = editVO.getTiltRatio();
        try {
            PDDocument document = PDDocument.load(new File(path));
            Font[] allFonts = GraphicsEnvironment.getLocalGraphicsEnvironment().getAllFonts();
            PDPageTree pages = document.getPages();
            for (int pageItem = 0; pageItem < pages.getCount(); pageItem++) {
                PDPage page = pages.get(pageItem);
                // 获取页面的内容流集合
                PDFStreamParser parser = new PDFStreamParser(page);
                parser.parse();
                List<Object> tokens = parser.getTokens();
                // 获取带有文本位置的内容流集合
                TokenIndexPDFTextStripper stripper = new TokenIndexPDFTextStripper();
                stripper.setSortByPosition(true);  // 按位置排序提取文本
                stripper.setStartPage(pageItem + 1);  // 设置开始页
                stripper.setEndPage(pageItem + 1);    // 设置结束页
                stripper.getText(document);  // 提取文本并记录每个操作符的下标
                List<Object> tokenList = stripper.getTokenList();
                // 过滤多余操作符的处理(PDFTextStripper会将某些操作符进行转换处理,比如0 -11.664 TD-》11.664 TL 0 -11.664 Td,需要将这些多余内容过滤但同时保留文本位置信息)
                List<List<Object>> tokens1 = new ArrayList<>();
                int index = 0;
                for (Object object : tokenList) {
                    if (object instanceof HashMap) {
                        tokens1.add(Arrays.asList(object, index - 1));
                    } else {
                        if (object.toString().equals(tokens.get(index).toString())) {
                            tokens1.add(Arrays.asList(tokens.get(index), index));
                            index++;
                        }
                    }
                }
                // 根据接口参数确定光标位置对应的tokens下标
                int tokenIndex = 0;
                Float insertCharX = null;
                Float insertCharY = null;
                StringBuffer preString = new StringBuffer();
                StringBuffer suffixString = new StringBuffer();
                for (int i = 0; i < tokens1.size(); i++) {
                    List<Object> objects = tokens1.get(i);
                    if (objects.get(0) instanceof HashMap) {
                        HashMap<String, Object> hashMap = (HashMap<String, Object>)objects.get(0);
                        Float x = (Float)hashMap.get("x");
                        Float y = (Float)hashMap.get("y");
                        Float width = (Float)hashMap.get("width");
                        Float height = (Float)hashMap.get("height");
                        if ((cursorX >= x && cursorX <= (x + width)) && (cursorY >= y && cursorY <= (y + height))) {
                            tokenIndex = (int)objects.get(1);
                                for (int j = 0; j < tokens1.size(); j++) {
                                    List<Object> objects1 = tokens1.get(j);
                                    // 以存储的tokens下标作为匹配条件
                                    int storageIndex = (int)objects1.get(1);
                                    if (storageIndex == tokenIndex){
                                        if (objects1.get(0) instanceof HashMap) {
                                            HashMap<String, Object> hashMap1 = (HashMap<String, Object>)objects1.get(0);
                                            String text1 = String.valueOf(hashMap1.get("text"));
                                            Float x1 = (Float)hashMap1.get("x");
                                            Float y1 = (Float)hashMap1.get("y");
                                            Float width1 = (Float)hashMap1.get("width");
                                            Float pageHeight1 = (Float)hashMap1.get("pageHeight");
                                            if (Objects.isNull(insertCharX)||Objects.isNull(insertCharY)){
                                                insertCharX = x1;
                                                insertCharY = pageHeight1- y1;
                                            }
                                            // 不拼接指定匹配坐标位置往前,deleteNum个数的字符
                                            if (j <= i - deleteNum) {
                                                preString.append(text1);
                                                insertCharX += width1;
                                            }else if (j > i){
                                                suffixString.append(text1);
                                            }
                                        }
                                    }
                                }
                            break;
                        }
                    }
                }
                if (tokenIndex == 0) {
                    System.out.println("cant find cursorX, cursorY");
                    return;
                }
                // 根据tokens下标,对内容流进行处理
                PDResources resources = page.getResources();
                COSName sysFontName = getSysFontName(document, allFonts, resources, fontName);
                Object indexToken = tokens.get(tokenIndex);
                if (indexToken instanceof Operator) {
                    Operator op = (Operator)indexToken;
                    String opName = op.getName();
                    if (OperatorName.SHOW_TEXT.equals(opName)) {
                        // 记录当前匹配的Tj之上到BT的内容(既用于设置新的文本绘制块,也用于设置状态回退操作符)
                        List<List<Object>> ascPreTokensAll = getPreTokensAll(tokens, tokenIndex);
                        List<List<Object>> descPreTokensAll = new ArrayList<>(ascPreTokensAll);
                        Collections.reverse(descPreTokensAll);
                        Optional<List<Object>> first = descPreTokensAll.stream().filter(item -> item.stream().anyMatch(
                            item1 -> item1 instanceof Operator && OperatorName.SET_FONT_AND_SIZE
                                .equals(((Operator)item1).getName()))).findFirst();
                        if (first.isPresent()) {
                            List<Object> objects = first.get();
                            COSName currentFontName = (COSName)objects.get(0);
                            PDFont currentFont = resources.getFont(currentFontName);
                            if (StringUtils.hasText(insertText)) {
                                tokens.remove(tokenIndex);
                                tokens.remove(tokenIndex-1);
                                int newNum = tokenIndex-1;
                                // 插入原本的前缀文本绘制块
                                if (StringUtils.hasText(preString)) {
                                    byte[] encode = currentFont.encode(preString.toString());
                                    tokens.add(newNum++, new COSString(encode));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.SHOW_TEXT));
                                }

                                // 插入新插入的文本绘制块
                                // w 设置线宽
                                tokens.add(newNum++, new COSFloat(lineWidth)); // 线宽
                                tokens.add(newNum++, Operator.getOperator(OperatorName.SET_LINE_WIDTH));
                                // Tf 设置字体和字号
                                tokens.add(newNum++, sysFontName); // 字体名称设置,需要采用系统字体,否则可能字形不存在
                                tokens.add(newNum++, new COSFloat(fontSize)); // 字号
                                tokens.add(newNum++, Operator.getOperator(OperatorName.SET_FONT_AND_SIZE));
                                tokens.add(newNum++, COSNumber.get(textRenderingMode));  // 文本绘制模式
                                tokens.add(newNum++, Operator.getOperator(OperatorName.SET_TEXT_RENDERINGMODE));
                                // Tm 设置文本变换矩阵,用于控制文本缩放倾斜,位移属性
                                // 定义矩阵的参数
                                tokens.add(newNum++, new COSFloat(1));        // 水平缩放因子,表示文本在 X 方向不缩放
                                tokens.add(newNum++, new COSFloat(0));        // 表示文本在 X 方向没有旋转或倾斜
                                tokens.add(newNum++, new COSFloat(tiltRatio));  // 垂直方向的倾斜因子,表示文本在 Y 方向倾斜,产生一个水平扭曲的效果(斜体效果)
                                tokens.add(newNum++, new COSFloat(1));        // 垂直缩放因子,表示文本在 Y 方向不缩放
                                tokens.add(newNum++, new COSFloat(insertCharX));  // X 方向的位置
                                tokens.add(newNum++, new COSFloat(insertCharY));  // Y 方向的位置
                                tokens.add(newNum++, Operator.getOperator(OperatorName.SET_MATRIX));
                                // RG 设置描边颜色
                                tokens.add(newNum++, new COSFloat(colors.get(0)));  // 红色
                                tokens.add(newNum++, new COSFloat(colors.get(1)));  // 绿色
                                tokens.add(newNum++, new COSFloat(colors.get(2)));  // 蓝色
                                tokens.add(newNum++, Operator.getOperator(OperatorName.STROKING_COLOR_RGB));
                                // rg 设置填充颜色
                                tokens.add(newNum++, new COSFloat(colors.get(0)));  // 红色
                                tokens.add(newNum++, new COSFloat(colors.get(1)));  // 绿色
                                tokens.add(newNum++, new COSFloat(colors.get(2)));  // 蓝色
                                tokens.add(newNum++, Operator.getOperator(OperatorName.NON_STROKING_RGB));
                                // Tj 显示文本
                                PDFont sysFont = resources.getFont(sysFontName);
                                tokens.add(newNum++,
                                    new COSString(sysFont.encode(insertText))); // 添加新的文本内容
                                tokens.add(newNum++, Operator.getOperator(OperatorName.SHOW_TEXT));

                                // 插入原本的后缀文本绘制块
                                if (StringUtils.hasText(suffixString)) {
                                    // 手动状态回退设值
                                    tokens.add(newNum++, new COSFloat(0));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.NON_STROKING_GRAY));
                                    tokens.add(newNum++, new COSFloat(0));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.STROKING_COLOR_GRAY));
                                    tokens.add(newNum++, COSNumber.get(String.valueOf(RenderingMode.FILL.intValue())));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.SET_TEXT_RENDERINGMODE));
                                    tokens.add(newNum++, new COSFloat(1));
                                    tokens.add(newNum++, new COSFloat(0));
                                    tokens.add(newNum++, new COSFloat(0));
                                    tokens.add(newNum++, new COSFloat(1));
                                    // 获取文本的宽度(单位是字体设计单位的一部分,需要按比例缩放)
                                    float stringWidth = sysFont.getStringWidth(insertText);
                                    // 计算文本的实际宽度
                                    float textWidth = stringWidth * fontSize / 1000;
                                    tokens.add(newNum++, new COSFloat(insertCharX + textWidth));
                                    tokens.add(newNum++, new COSFloat(insertCharY));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.SET_MATRIX));
                                    // 自动状态回退设值(将BT到该匹配坐标之前的字体颜色样式大小等按顺序设置一遍,保证重新回归字体状态)
                                    List<String> backStates = Arrays
                                        .asList(OperatorName.SET_FONT_AND_SIZE, OperatorName.NON_STROKING_RGB,
                                            OperatorName.NON_STROKING_GRAY, OperatorName.STROKING_COLOR_RGB,
                                            OperatorName.STROKING_COLOR_GRAY,OperatorName.SET_LINE_WIDTH,OperatorName.SET_TEXT_RENDERINGMODE);
                                    List<List<Object>> backTokens = ascPreTokensAll.stream().filter(item -> item.stream()
                                        .anyMatch(item1 -> item1 instanceof Operator && backStates
                                            .contains(((Operator)item1).getName()))).collect(Collectors.toList());
                                    for (List<Object> item : backTokens) {
                                        for (Object item1 : item) {
                                            tokens.add(newNum++, item1);
                                        }
                                    }
                                    // 插入原本的后缀文本内容
                                    byte[] encode = currentFont.encode(suffixString.toString());
                                    tokens.add(newNum++, new COSString(encode));
                                    tokens.add(newNum++, Operator.getOperator(OperatorName.SHOW_TEXT));
                                }
                            } else {
                                byte[] encode = currentFont.encode(preString.toString() + suffixString.toString());
                                tokens.remove(tokenIndex-1);
                                tokens.add(tokenIndex-1,new COSString(encode));
                            }
                        }
                    }else if (OperatorName.SHOW_TEXT_ADJUSTED.equals(opName)){
                        // TODO 处理文本数组(包含间距元素的多段文本数组)时,同理将前缀内容继续保持为文本数组,插入内容重新设置,恢复文本状态后将后缀内容继续保持为文本数组
                        System.out.println("进入文本数组处理");
                    }
                }

                PDStream newContentStream = new PDStream(document);
                try (java.io.OutputStream out = newContentStream.createOutputStream()) {
                    ContentStreamWriter writer = new ContentStreamWriter(out);
                    writer.writeTokens(tokens);
                }
                // 将新的内容流设置回页面
                page.setContents(newContentStream);
            }
            document.save(outputFilePath);
            document.close();
            System.out.println("操作完成");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * 获取当前匹配之前至BT的内容流
     * @param tokens 内容流
     * @param i 当前匹配的下标
     * @return 当前匹配之前至BT的内容流
     */
    private List<List<Object>> getPreTokensAll(List<Object> tokens, int i) {
        List<Integer> preTokenIndex = new ArrayList<>();
        for (int j = i-1; j > 0; j--) {
            Object token1 = tokens.get(j);
            if (token1 instanceof Operator) {
                Operator op1 = (Operator)token1;
                String opName1 = op1.getName();
                if (OperatorName.BEGIN_TEXT.equals(opName1)) {
                    break;
                }
            }
            preTokenIndex.add(j);
        }
        Collections.sort(preTokenIndex);
        List<Object> orgPreTextTokens =
            preTokenIndex.stream().map(tokens::get).collect(Collectors.toList());
        // 重组原始文本绘制块的内容
        List<List<Object>> preTokensAll = new ArrayList<>();
        List<Object> singleToken = new ArrayList<>();
        for (Object item : orgPreTextTokens) {
            singleToken.add(item);
            if (item instanceof Operator) {
                preTokensAll.add(singleToken);
                singleToken = new ArrayList<>();
            }
        }
        return preTokensAll;
    }

    /**
     * 根据当前匹配字体获取对应系统字体
     * @param document PDF文档对象
     * @param allFonts 系统所有字体
     * @param resources 页面资源
     * @param fontName 输入的字体名称
     * @return 当前匹配字体获取对应系统字体在页面资源加载后的名称
     */
    private COSName getSysFontName(PDDocument document, Font[] allFonts, PDResources resources, String fontName) {
        COSName sysFontName = null;
        for (Font fon : allFonts) {
            try {
                // 通过反射获取 Font2D 对象
                Font2D font2D = FontUtilities.getFont2D(fon);
                // 通过反射访问 Font2D 的 familyName 字段
                Field familyNameField = Font2D.class.getDeclaredField("familyName");
                familyNameField.setAccessible(true);
                String familyName = (String)familyNameField.get(font2D);
                // 获取字体文件路径
                if (font2D instanceof sun.font.PhysicalFont) {
                    Field platNameField =
                        sun.font.PhysicalFont.class.getDeclaredField("platName");
                    platNameField.setAccessible(true);
                    String platName = (String)platNameField.get(font2D);
                    if (fontName.toLowerCase(Locale.ROOT)
                        .contains(familyName.toLowerCase(Locale.ROOT))) {
                        PDType0Font sysFont;
                        if (platName.toLowerCase(Locale.ROOT).endsWith(".ttc")) {
                            // 加载TTC文件
                            org.apache.fontbox.ttf.TrueTypeCollection ttc =
                                new org.apache.fontbox.ttf.TrueTypeCollection(
                                    new File(platName));
                            // 选择其中一个字体
                            List<TrueTypeFont> trueTypeFonts = new ArrayList<>();
                            ttc.processAllFonts(trueTypeFonts::add);
                            sysFont = PDType0Font.load(document, trueTypeFonts.get(0), true);
                        } else {
                            sysFont = PDType0Font.load(document, new File(platName));
                        }
                        sysFontName = resources.add(sysFont);
                    }
                }
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return sysFontName;
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131046.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用 Vidu Studio 根据照片和提示词生成视频

在这个数字化时代&#xff0c;视频内容已经成为我们日常生活中不可或缺的一部分。无论是记录美好瞬间&#xff0c;还是制作创意短片&#xff0c;视频都能生动地呈现我们的故事。今天&#xff0c;我将向大家介绍如何使用 Vidu Studio&#xff0c;根据已有照片和提示词&#xff0…

保姆级CVE-2018-17066漏洞复现 DLink命令注入漏洞(更新完结)

参考文章 CVE-2018-17066复现-CSDN博客 IOT-CVE-2018-17066(D-Link命令注入漏洞)_firmae路由仿真-CSDN博客 https://www.cnblogs.com/from-zero/p/13300396.html IOT-CVE-2018-17066(D-Link命令注入漏洞)_iot设备漏洞-CSDN博客 cve-2018-17066复现 | 1uckycs blog 漏洞环境搭建…

web渗透—RCE

一&#xff1a;代码执行 相关函数 1、eval()函数 assert()函数 (1)原理&#xff1a;将用户提交或者传递的字符串当作php代码执行 (2)passby:单引号绕过&#xff1a;闭合注释&#xff1b;开启GPC的话就无法绕过&#xff08;GPC就是将单引号转换为"反斜杠单引号"&a…

【Redis】缓存和数据库一致性问题及解决方案

往期文章&#xff1a; 【Redis】Redis 底层的数据结构&#xff08;结合源码&#xff09; 【Redis】为什么选择 Redis 做缓存&#xff1f; 【Redis】缓存击穿、缓存穿透、缓存雪崩原理以及多种解决方案 一、前言 在前面的文章中&#xff0c;我们探讨了为什么要使用 Redis…

独居打工人,把超市当顶配食堂

文 | 螳螂观察 作者 | 如意 独自在大城市扎根的年轻人有着自己的小确幸&#xff0c;比如“周末可以睡到下午才起床&#xff0c;不会有任何人打扰”&#xff0c;“瘫在沙发上吃着零食享受一部自己想看很久的电影&#xff0c;也不会被唠叨。” 但生活并不总是尽如人意&#xf…

基于SpringBoot+Vue的学生宿舍水电信息管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…

PDF在线编辑哪家强?2024年4款热门工具大比拼

如今是数字化的时代&#xff0c;PDF 文件对我们工作和学习来说特别重要。不过呢&#xff0c;遇到那些麻烦的 PDF 编辑和转换的事情时&#xff0c;你是不是常常觉得没招儿&#xff0c;甚至还得加班到半夜&#xff1f;别犯愁啦&#xff0c;今天我给你讲讲四款非常好用的 PDF 在线…

深入理解全连接层:从线性代数到 PyTorch 中的 nn.Linear 和 nn.Parameter

文章目录 数学概念&#xff08;全连接层&#xff0c;线性层&#xff09;nn.Linear()nn.Parameter()Q1. 为什么 self.weight 的权重矩阵 shape 使用 ( out_features , in_features ) (\text{out\_features}, \text{in\_features}) (out_features,in_features)而不是 ( in_featur…

【人工智能】OpenAI最新发布的GPT-o1模型,和GPT-4o到底哪个更强?最新分析结果就在这里!

在人工智能的快速发展中&#xff0c;OpenAI的每一次新模型发布都引发了广泛的关注与讨论。2023年9月13日&#xff0c;OpenAI正式推出了名为o1的新模型&#xff0c;这一模型不仅是其系列“推理”模型中的首个代表&#xff0c;更是朝着类人人工智能迈进的重要一步。本文将综合分析…

10款超好用的电脑文件加密软件推荐|2024文件加密软件排行榜

在数字时代&#xff0c;数据安全已成为个人和企业不可忽视的重要议题。加密软件作为守护数据安全的坚固防线&#xff0c;其重要性不言而喻。以下是2024年备受推荐的十款电脑文件加密软件。 1.安秉网盾 安秉网盾以其全面的数据保护和安全防护功能备受企业青睐。它支持多种加密…

C语言内存函数(21)

文章目录 前言一、memcpy的使用和模拟实现二、memmove的使用和模拟实现三、memset函数的使用四、memcmp函数的使用总结 前言 正文开始&#xff0c;发车&#xff01; 一、memcpy的使用和模拟实现 函数模型&#xff1a;void* memcpy(void* destination, const void* source, size…

深入Redis:分布式锁

在一个分布式的系统中&#xff0c;会涉及到多个节点访问同一个公共资源的情况。此时就需要通过锁来做互斥控制&#xff0c;避免出现类似于“线程安全”的问题。 Java中的synchronize只能在当前线程中生效&#xff0c;在分布式的这种多个进程多个主机的场景下就无能为力了。此时…

原型模式详细介绍和代码实现

&#x1f3af; 设计模式专栏&#xff0c;持续更新中&#xff0c; 欢迎订阅&#xff1a;JAVA实现设计模式 &#x1f6e0;️ 希望小伙伴们一键三连&#xff0c;有问题私信都会回复&#xff0c;或者在评论区直接发言 Java实现原型模式 介绍: 原型模式&#xff08;Prototype Patte…

C4D2025来了!亮眼的新功能一览

C4D2025新功能亮点&#xff0c;同步上新的Redshift 2025.0.2。等我体验了再给大家讲详细的 成都渲染101云渲染支持对应软件渲染&#xff0c;3090等显卡&#xff0c;云渲码6666 渲染101云渲码6666 Mograph增强 引入线性域标签&#xff0c;用于精细控制对象参数。 为追踪器对象新…

安泰功率放大器有哪些特点呢

功率放大器是电子设备中的重要组成部分&#xff0c;其作用是将输入信号的电功率放大到足够的水平&#xff0c;以驱动负载&#xff0c;如扬声器或天线。功率放大器有一些独特的特点&#xff0c;这些特点对于各种应用至关重要。下面将详细介绍功率放大器的特点&#xff0c;以更好…

【Vue】移动端访问Vue项目页面无数据,但是PC访问有数据

问题&#xff1a; Vue项目&#xff0c;PC访问时下拉列表有数据&#xff0c;移动端访问时下拉列表没有数据&#xff1b; 思路&#xff1a; 首先打开了Fiddler抓包工具&#xff0c;把抓到的url复制到PC浏览器进行访问&#xff0c;结果发现PC上访问这个页面是有数据的&#xff…

利用Leaflet.js创建交互式地图:绘制固定尺寸的长方形

在现代Web开发中&#xff0c;交互式地图已成为展示地理位置数据的重要工具。Leaflet.js是一个轻量级、功能丰富的开源JavaScript库&#xff0c;用于构建移动友好的交互式地图。在本文中&#xff0c;我们将探讨如何利用Leaflet.js在地图上绘制一个固定尺寸的长方形&#xff0c;扩…

堆+堆排序+topK问题

目录 堆&#xff1a; 1、堆的概念 2、堆的结构 3、堆的实现 3.1、建堆 3.1.1、向上调整建堆(用于堆的插入) 3.1.2、向下调整建堆 3.2、堆的删除 3.3、堆的代码实现 3.3.1、Heap.h 3.3.2、Heap.c 堆排序&#xff1a;&#xff08;O(N*log(N))&#xff09; 1、排序如何…

接口测试用例的编写

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1、接口测试发现的典型问题 接口测试经常遇到的bug和问题&#xff0c;如下&#xff1a; 传入参数处理不当&#xff0c;导致程序crash类型溢出&#xff0c;导…

下载chromedriver驱动

首先进入关于ChromeDriver最新下载地址&#xff1a;Chrome for Testing availability 进入之后找到与自己所匹配的&#xff0c;在浏览器中查看版本号&#xff0c;下载版本号需要一致。 下载即可&#xff0c;解压&#xff0c;找到 直接放在pycharm下即可 因为在环境变量中早已配…