Java使用IText生产PDF时,中文标点符号出现在行首的问题处理

news2025/1/11 2:23:14

Java使用IText生成PDF时,中文标点符号出现在行首的问题处理

使用itext 5进行html转成pdf时,标点符号出现在某一行的开头 但这种情况下显然不符合中文书写的规则,主要问题出在itext中的DefaultSplitCharacter类,该方法主要用来判断字符是否为可拆分字符。

itext 版本:5.5.13

解决办法:
1、可以通过修改源码的方式,可以参考
如何修改jar包源码以及解决iText生成pdf时中文标点存在行首问题

2、如果不想修改源码,也可以在自己项目中创建与itext中DefaultSplitCharacter相同的包路径,并在该包下重新DefaultSplitCharacter类,能这样处理的原因,与类的加载顺序有关。
在这里插入图片描述

package com.itextpdf.text.pdf;

import com.itextpdf.text.SplitCharacter;

public class DefaultSplitCharacter implements SplitCharacter {

    /**
     * An instance of the default SplitCharacter.
     */
    public static final SplitCharacter DEFAULT = new DefaultSplitCharacter();

    // line of text cannot start or end with this character
    static final char u2060 = '\u2060'; // - ZERO WIDTH NO BREAK SPACE

    // a line of text cannot start with any following characters in
    // NOT_BEGIN_CHARACTERS[]
    static final char u30fb = '\u30fb'; // ・ - KATAKANA MIDDLE DOT
    static final char u2022 = '\u2022'; // • - BLACK SMALL CIRCLE (BULLET)
    static final char uff65 = '\uff65'; // ・ - HALFWIDTH KATAKANA MIDDLE DOT
    static final char u300d = '\u300d'; // 」 - RIGHT CORNER BRACKET
    static final char uff09 = '\uff09'; // ) - FULLWIDTH RIGHT PARENTHESIS
    static final char u0021 = '\u0021'; // ! - EXCLAMATION MARK
    static final char u0025 = '\u0025'; // % - PERCENT SIGN
    static final char u0029 = '\u0029'; // ) - RIGHT PARENTHESIS
    static final char u002c = '\u002c'; // , - COMMA
    static final char u002e = '\u002e'; // . - FULL STOP
    static final char u003f = '\u003f'; // ? - QUESTION MARK
    static final char u005d = '\u005d'; // ] - RIGHT SQUARE BRACKET
    static final char u007d = '\u007d'; // } - RIGHT CURLY
    static final char uff61 = '\uff61'; // 。 - HALFWIDTH IDEOGRAPHIC FULL STOP

    static final char uff70 = '\uff70'; // ー - HALFWIDTH KATAKANA-HIRAGANA PROLONGED SOUND MARK
    static final char uff9e = '\uff9e'; // ゙ - HALFWIDTH KATAKANA VOICED SOUND MARK
    static final char uff9f = '\uff9f'; // ゚ - HALFWIDTH KATAKANA SEMI-VOICED SOUND MARK
    static final char u3001 = '\u3001'; // 、 - IDEOGRAPHIC COMMA
    static final char u3002 = '\u3002'; // 。 - IDEOGRAPHIC FULL STOP
    static final char uff0c = '\uff0c'; // , - FULLWIDTH COMMA
    static final char uff0e = '\uff0e'; // . - FULLWIDTH FULL STOP
    static final char uff1a = '\uff1a'; // : - FULLWIDTH COLON
    static final char uff1b = '\uff1b'; // ; - FULLWIDTH SEMICOLON
    static final char uff1f = '\uff1f'; // ? - FULLWIDTH QUESTION MARK
    static final char uff01 = '\uff01'; // ! - FULLWIDTH EXCLAMATION MARK
    static final char u309b = '\u309b'; // ゛ - KATAKANA-HIRAGANA VOICED SOUND MARK
    static final char u309c = '\u309c'; // ゜ - KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK
    static final char u30fd = '\u30fd'; // ヽ - KATAKANA ITERATION MARK

    static final char u2019 = '\u2019'; // ’ - RIGHT SINGLE QUOTATION MARK
    static final char u201d = '\u201d'; // ” - RIGHT DOUBLE QUOTATION MARK
    static final char u3015 = '\u3015'; // 〕 - RIGHT TORTOISE SHELL BRACKET
    static final char uff3d = '\uff3d'; // ] - FULLWIDTH RIGHT SQUARE BRACKET
    static final char uff5d = '\uff5d'; // } - FULLWIDTH RIGHT CURLY BRACKET
    static final char u3009 = '\u3009'; // 〉 - RIGHT ANGLE BRACKET
    static final char u300b = '\u300b'; // 》 - RIGHT DOUBLE ANGLE BRACKET
    static final char u300f = '\u300f'; // 』 - RIGHT WHITE CORNER BRACKET
    static final char u3011 = '\u3011'; // 】 - RIGHT BLACK LENTICULAR BRACKET
    static final char u00b0 = '\u00b0'; // ° - DEGREE SIGN
    static final char u2032 = '\u2032'; // ′ - PRIME
    static final char u2033 = '\u2033'; // ″ - DOUBLE PRIME

    static final char[] NOT_BEGIN_CHARACTERS = new char[] { u30fb, u2022, uff65, u300d, uff09, u0021, u0025, u0029,
            u002c, u002e, u003f, u005d, u007d, uff61, uff70, uff9e, uff9f, u3001, u3002, uff0c, uff0e, uff1a, uff1b,
            uff1f, uff01, u309b, u309c, u30fd, u2019, u201d, u3015, uff3d, uff5d, u3009, u300b, u300f, u3011, u00b0,
            u2032, u2033, u2060 };

    // a line of text cannot end with any following characters in
    // NOT_ENDING_CHARACTERS[]
    static final char u0024 = '\u0024'; // $ - DOLLAR SIGN
    static final char u0028 = '\u0028'; // ( - LEFT PARENTHESIS
    static final char u005b = '\u005b'; // [ - LEFT SQUARE BRACKET
    static final char u007b = '\u007b'; // { - LEFT CURLY BRACKET
    static final char u00a3 = '\u00a3'; // £ - POUND SIGN
    static final char u00a5 = '\u00a5'; // ¥ - YEN SIGN
    static final char u201c = '\u201c'; // “ - LEFT DOUBLE QUOTATION MARK
    static final char u2018 = '\u2018'; // ‘ - LEFT SINGLE QUOTATION MARK
    static final char u300a = '\u300a'; // 《 - LEFT DOUBLE ANGLE BRACKET
    static final char u3008 = '\u3008'; // 〈 - LEFT ANGLE BRACKET
    static final char u300c = '\u300c'; // 「 - LEFT CORNER BRACKET
    static final char u300e = '\u300e'; // 『 - LEFT WHITE CORNER BRACKET
    static final char u3010 = '\u3010'; // 【 - LEFT BLACK LENTICULAR BRACKET
    static final char u3014 = '\u3014'; // 〔 - LEFT TORTOISE SHELL BRACKET
    static final char uff62 = '\uff62'; // 「 - HALFWIDTH LEFT CORNER BRACKET
    static final char uff08 = '\uff08'; // ( - FULLWIDTH LEFT PARENTHESIS
    static final char uff3b = '\uff3b'; // [ - FULLWIDTH LEFT SQUARE BRACKET
    static final char uff5b = '\uff5b'; // { - FULLWIDTH LEFT CURLY BRACKET
    static final char uffe5 = '\uffe5'; // ¥ - FULLWIDTH YEN SIGN
    static final char uff04 = '\uff04'; // $ - FULLWIDTH DOLLAR SIGN

    static final char[] NOT_ENDING_CHARACTERS = new char[] { u0024, u0028, u005b, u007b, u00a3, u00a5, u201c, u2018,
            u3008, u300a, u300c, u300e, u3010, u3014, uff62, uff08, uff3b, uff5b, uffe5, uff04, u2060 };



    @Override
    public boolean isSplitCharacter(int start, int current, int end, char[] cc, PdfChunk[] ck) {


        // Note: If you don't add an try/catch and there is an issue with
        // isSplitCharacter(), iText silently fails and
        // you have no idea there was a problem.
        try {

            char c = getCharacter(current, cc, ck);

            int next = current + 1;
            if (next < cc.length) {
                char charNext = getCharacter(next, cc, ck);
                for (char not_begin_character : NOT_BEGIN_CHARACTERS) {
                    if (charNext == not_begin_character) {
                        return false;
                    }
                }
            }

            for (char not_ending_character : NOT_ENDING_CHARACTERS) {
                if (c == not_ending_character) {
                    return false;
                }
            }

            if (c <= ' ' || c == '-' || c == '\u2010') {
                return true;
            }
            if (c < 0x2002)
                return false;
            return ((c >= 0x2002 && c <= 0x200b)
                    || (c >= 0x2e80 && c < 0xd7a0)
                    || (c >= 0xf900 && c < 0xfb00)
                    || (c >= 0xfe30 && c < 0xfe50)
                    || (c >= 0xff61 && c < 0xffa0));
        } catch (Exception ex) {
            ex.printStackTrace();
        }

        return true;
    }

    /**
     * Returns a character int the array (Note: modified from the iText default
     * version with the addition null check of '|| ck[Math.min(position, ck.length -
     * 1)] == null'.
     *
     * @param position position in the array
     * @param ck       chunk array
     * @param cc       the character array that has to be checked
     * @return the character
     */
    protected char getCharacter(int position, char[] cc, PdfChunk[] ck) {
        if (ck == null || ck[Math.min(position, ck.length - 1)] == null) {
            return cc[position];
        }
        return (char) ck[Math.min(position, ck.length - 1)].getUnicodeEquivalent(cc[position]);
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1373554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从0到1入门C++编程——05 类和对象之运算符重载、继承

文章目录 运算符重载1.加号运算符重载2.左移运算符重载3.递增运算符重载4.赋值运算符重载5.关系运算符重载6.函数调用运算符重载 继承1.继承的基本语法及继承方式2.继承中的对象模型3.继承中构造函数和析构函数的顺序4.继承中同名成员的处理方式5.继承中同名静态成员处理方式6.…

18张AI电脑动漫超清壁纸免费分享

18张AI电脑动漫壁纸&#xff0c;紫色系和暗黑系&#xff0c;都很不错&#xff0c;喜欢的朋友可以拿去 CSDN免积分下载

【动态规划】C++ 算法458:可怜的小猪

作者推荐 视频算法专题 涉及知识点 动态规划 数学 力扣458:可怜的小猪 有 buckets 桶液体&#xff0c;其中 正好有一桶 含有毒药&#xff0c;其余装的都是水。它们从外观看起来都一样。为了弄清楚哪只水桶含有毒药&#xff0c;你可以喂一些猪喝&#xff0c;通过观察猪是否…

SD-WAN对企业网络升级的价值

在当今数字化飞速发展的时代&#xff0c;企业对网络的依赖越来越深&#xff0c;如何在确保IT正常运行的同时降低成本成为企业CIO和业务经理共同关注的焦点。SD-WAN的出现为企业组网带来了崭新的可能性&#xff0c;成为降低开支、提高效率和改善用户体验的重要工具。 企业在数字…

QT上位机开发(属性页面的设计)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 窗口设计的时候&#xff0c;如果很多内容一个page放不下&#xff0c;那么这个时候我们一般都会选择使用tab来进行处理。安装了tab之后&#xff0c;…

NR中如何判断是否需要measurement gap来做邻区的测量?

先看下NR中定义的测量。 intra-freq 测量和inter-freq测量可以分为以下几类&#xff1a; 1 SSB based intra-freq 测量&#xff1a;serving cell SSB的center freq与邻区 SSB的center freq 相同并且两个SSB 的SCS也相同。 2 SSB based inter-freq 测量&#xff1a;serving ce…

使用AI平台处理训练和微调数据

Llama.cpp是Georgi Gerganov 基于 Meta 的 LLaMA 模型 手写的纯 C/C 版本&#xff0c;让我们实现了在笔记本电脑上部署和体验AI大模型&#xff0c;实现没有GPU也可以运行AI大模型。执行起来虽然比较慢&#xff0c;但是只能算做体验&#xff0c;还可以选择不同语言。某个模型使用…

自动化的运维管理:探究Kubernetes工作机制的奥秘

1 云计算时代的操作系统 Kubernetes 是一个生产级别的 容器编排平台 和 集群管理系统 &#xff0c;能够 创建、调度容器&#xff0c;监控、管理服务器。 容器是什么&#xff1f;容器是软件&#xff0c;是应用&#xff0c;是进程。服务器是什么&#xff1f;服务器是硬件&#…

通过 Elastic Stack 充分利用电信领域生成式 AI 的力量

作者&#xff1a;Elastic Piotr Kobziakowski, Jrgen Obermann 在瞬息万变的电信领域&#xff0c;Elastic Stack 与生成式 AI 的集成正在开创运营效率和创新的新时代。 这些技术不仅增强了网络运营&#xff0c;而且还彻底改变了各个部门的内部流程。 下面&#xff0c;我们将深入…

OpenAI推出GPT商店和ChatGPT Team服务

&#x1f989; AI新闻 &#x1f680; OpenAI推出GPT商店和ChatGPT Team服务 摘要&#xff1a;OpenAI正式推出了其GPT商店和ChatGPT Team服务。用户已经创建了超过300万个ChatGPT自定义版本&#xff0c;并分享给其他人使用。GPT商店集结了用户为各种任务创建的定制化ChatGPT&a…

联手英特尔,释放星飞分布式全闪存储潜能

近日&#xff0c;英特尔官网发布了与 XSKY 星辰天合联手打造的解决方案&#xff0c;即 XSKY 的新一代全闪分布式存储系统 XINFINI&#xff0c;该存储系统采用英特尔 QAT 加速数据压缩/解压缩&#xff0c;从而大幅度提升存储系统性能。 全闪存储系统面临的解压缩挑战 在存储系统…

LeetCode刷题--- 地下城游戏

个人主页&#xff1a;元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 ​​​​​​http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​http://t.csdnimg.cn/hKh2l 前言&#xff1a;这个专栏主要讲述动…

【C++】零碎知识点汇总_1

abs() 函数&#xff1a; abs() 是 C 和 C 标准库中的函数&#xff0c;用于计算整数的绝对值。在 C 中&#xff0c;abs() 函数的原型位于 <stdlib.h> 头文件中&#xff0c;用于整数类型在 C 中&#xff0c;abs() 函数的原型位于 <cstdlib> 头文件中&#xff0c;并可…

【漏洞复现】Hikvision SPON IP网络对讲广播系统存在命令执行漏洞CVE-2023-6895

漏洞描述 Hikvision Intercom Broadcasting System是中国海康威视(Hikvision)公司的一个对讲广播系统。 Hikvision Intercom Broadcasting System是中国海康威视(Hikvision)公司的一个对讲广播系统。Hikvision Intercom Broadcasting System 3.0.3_20201113_RELEASE(HIK)版…

SpringBoot集成Skywalking实现分布式链路追踪

官方网址&#xff1a; Apache SkyWalking官方文档&#xff1a; SkyWalking 极简入门 | Apache SkyWalking下载地址&#xff1a;Downloads | Apache SkyWalking Agent&#xff1a;以探针的方式进行请求链路的数据采集&#xff0c;并向管理服务上报&#xff1b; OAP-Service&am…

2023年快要结束了,今年哪些计算机书值得推荐?

2023年推荐新书有如下几本&#xff1a; 1、软件开发安全之道概念、设计与实施 软件安全设计和实施&#xff0c;覆盖安全概念、设计与实践&#xff0c;让您轻松应对各种威胁与挑战&#xff0c;帮助读者培养安全意识&#xff0c;全面了解软件开发安全之道。 2、C Templates&…

云服务器搭建GitLab

经验总结&#xff1a; 1、配置需求&#xff1a;云服务器内存最低4G 2、内存4G的云服务器&#xff0c;在运行容器后&#xff0c;会遇到云服务器操作卡顿问题&#xff0c;这里有解决方案 转载&#xff1a;服务器搭建Gitlab卡顿解决办法-CSDN博客 3、云服务器的操作系统会影响…

OpenAI大反击!称纽约时报涉嫌故意操纵,且数据是「合理使用」

大家好我是二狗。 《纽约时报》向法院起诉OpenAI侵犯版权后续事件来了&#xff01; 就在今天&#xff0c;OpenAI进行了一场“危机公关”&#xff1a;直接在官方博客上撰文发声&#xff0c;反驳《纽约时报》的诉讼&#xff0c;其主要观点有四个&#xff1a; 1、我们正在和新闻…

将WebGL打包的unity项目部署至Vue中

一、webgl打包 创建一个空项目&#xff08;或者直接使用现成的项目都可以&#xff09;这里以该空项目为例子 注意&#xff1a; 如果你的unity项目中有文字&#xff0c;不需要使用unity默认的字体&#xff0c;需要更改它的字体&#xff0c;否则在最后生成的页面中会显示不出来…

Vue过滤器详解

聚沙成塔每天进步一点点 本文内容 ⭐ 专栏简介基本用法多个过滤器的串联过滤器在指令中的应用全局过滤器 ⭐ 本期推荐 ⭐ 专栏简介 Vue学习之旅的奇妙世界 欢迎大家来到 Vue 技能树参考资料专栏&#xff01;创建这个专栏的初衷是为了帮助大家更好地应对 Vue.js 技能树的学习。每…