Java实现PDF文字内容识别,结合OCR实现PDF图片实现

news2025/1/17 0:07:12

使用插件:UMI-OCR、PDFBOX

实现思路:通过PDFBOX识别PDF文字,如果是图片,则识别不出来,再调用OCR进行识别返回文字;OCR识别较慢,长图识别不出来,目前HTTP方式只支持图片格式,还需使用PDFBOX要将每一页PDF转换为图片再进行识别拼接。

UMI-OCR下载地址:https://github.com/hiroi-sora/Umi-OCR/releases/latest

git仓库地址:GitHub - hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。

下载后直接在WIN系统安装(目前只支持WIN系统),安装包内含PaddleOCR-json,无需再进行下载;安装启动,设置HTTP请求参数

全局设置 --> 高级 --> 允许HTTP服务:

主机设置为:任何可用地址

端口:自己设置

PDFBOX MAVEN版本配置:

 <!-- PDF文档处理 -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.8</version>
        </dependency>

代码实现文字识别:

String text = "";
        try {
            PDDocument pdDocument = PDDocument.load(image.getInputStream());
            PDFTextStripper pdfTextStripper = new PDFTextStripper();
            //读取pdf中所有的文件
            //前端HTML不识别><,需要进行更换
            text = pdfTextStripper.getText(pdDocument);
            text = text.replace(" ", "")
                    .replace("\r", "")
                    .replace("\t", "")
                    .replace("\n", "");
            if (StrUtil.isNotEmpty(text)){
                text = text.replace("<","&lt;").replace(">","&gt;");
            }else{
                /**
                 * 如果没有识别到文字,
                 * 则转成图片
                 * 进行OCR识别获取文本
                 */
                text = uploadPDF2OcrGetText(accessUrl, image);
            }
        }catch (IOException e){
            log.error(e.getMessage());
        }

如果文档里面含有"<"">",前端HTML不识别,则需要进行转换

uploadPDF2OcrGetText:
    /**
     * 上传图片文件至OCR
     * @param accessUrl 访问地址
     * @param image 图片文件
     * @return
     */
    public static String uploadPDF2OcrGetText(String accessUrl, MultipartFile image) {
        List<ByteArrayOutputStream> list = getStreamList(image);
        StringBuilder sb = new StringBuilder();
        if (list != null && !list.isEmpty()){
            for (ByteArrayOutputStream outputStream : list) {
                String str = getData(accessUrl, outputStream);
                if (StrUtil.isNotEmpty(str)){
                    sb.append(str);
                }
            }
        }
        return sb.toString();
    }

将PDF转为图片流方法getStreamList:

    /**
     * PDFBOX将PDF转成png流
     * @param file 图片文件
     * @return List
     */
    public static List<ByteArrayOutputStream> getStreamList(MultipartFile file) {
        List<ByteArrayOutputStream> list = new ArrayList<>();
        try{
            PDDocument pdf = PDDocument.load(file.getInputStream());
            PDFRenderer renderer = new PDFRenderer(pdf);
            int pageCount = pdf.getNumberOfPages();
            for (int i = 0; i < pageCount; i++){
                BufferedImage image = renderer.renderImageWithDPI(i, 120);//120为DPI根据自己设置
                ByteArrayOutputStream bas = new ByteArrayOutputStream();
                ImageIO.write(image, "png", bas);
                list.add(bas);
            }
        }catch (IOException e){
            log.error(e.getMessage());
        }
        return list;
    }

调用OCR识别文字方法getData:

 /**
     * 上传图片文件至OCR
     * @param accessUrl 访问地址
     * @param outputStream 图片流
     * @return
     */
    public static String getData(String accessUrl, ByteArrayOutputStream outputStream){
        //转换为Base64
        String base64Image = new String(Base64.encodeBase64(outputStream.toByteArray()));
        //如果文件属于图片则进行文件转换
        JSONObject jb = new JSONObject();
        jb.set("base64", base64Image);
        JSONObject jb1 = new JSONObject();
        jb1.set("tbpu.parser", "multi_para");
        jb1.set("data.format", "text");
        jb.set("options", jb1);
        String result2 = HttpRequest.post(accessUrl)
                .body(jb.toString())//表单内容
                .timeout(300000)//数据可能较大,超时时间调的较长
                .execute().body();
        JSONObject jsonObject = JSONUtil.parseObj(result2);
        String text = null;
        if ("100".equals(jsonObject.getStr("code"))){
            text = jsonObject.getStr("data");
        }
        return text;
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1515651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

变量柱塞液压泵比例阀放大器

液压泵把动力机的能转换成液压的压力能。使用在开式和闭式系统里在固定和移动的设备上&#xff0c;通过电比例放大器控制比例阀线圈驱动液流方向压力流量。BEUEC比例放大器适用控制方式&#xff1a;电比例控制&#xff08;12VDC、24VDC&#xff09;&#xff0c;控制闭式泵系列4…

消费补贴模式,刺激消费需求,重塑商业格局

​小编介绍&#xff1a;10年专注商业模式设计及软件开发&#xff0c;擅长企业生态商业模式&#xff0c;商业零售会员增长裂变模式策划、商业闭环模式设计及方案落地&#xff1b;扶持10余个电商平台做到营收过千万&#xff0c;数百个平台达到百万会员&#xff0c;欢迎咨询。 在…

小明的背包——01背包问题

经典版 题目链接&#xff1a;1.小明的背包1 - 蓝桥云课 (lanqiao.cn) 01背包问题中&#xff0c;每种物品只有两种状态&#xff0c;即拿或不拿。设状态dp[i][j]max(dp[i-1][j],dp[i-1][j-w]v)&#xff1b;如果不拿物品i&#xff0c;那么最大价值就是dp[i-1][j]&#xff0c;如果…

【软件工具】网络性能测试工具 Iperf

Iperf 是一款专业的开源网络性能测试工具&#xff0c;它被广泛用于测量网络带宽、延迟、抖动和数据包丢失等网络性能指标&#xff0c;支持 TCP 和 UDP 等&#xff0c;可用于点对点或客户端-服务器等模式的网络测试。 软件获取 官方下载地址&#xff1a;https://iperf.fr/iper…

最新若依项目快速上手

最新若依项目快速上手 配套视频&#xff1a;若依项目快速上手视频 1. 下载源码 官网&#xff1a;https://ruoyi.vip/ 前端 git clone https://github.com/yangzongzhuan/RuoYi-Vue3.git后端 git clone https://gitee.com/y_project/RuoYi-Vue.git2. 数据库 创建数据库ry-vue…

Day32:安全开发-JavaEE应用Servlet路由技术JDBCMybatis数据库生命周期

目录 JavaEE-HTTP-Servlet&路由&周期 JavaEE-数据库-JDBC&Mybatis&库 思维导图 Java知识点&#xff1a; 功能&#xff1a;数据库操作&#xff0c;文件操作&#xff0c;序列化数据&#xff0c;身份验证&#xff0c;框架开发&#xff0c;第三方库使用等. 框架…

在线编辑字体工具,支持对字体查看编码以及编辑

公司一个沉寂多年的项目需要进行二开&#xff0c;前面的开发的同学已经离开&#xff0c;对于项目情况了解较少&#xff0c;开发的时候发现缺失很多小图标&#xff0c;但是对原来有那些图标也不太了解 目标 1、知晓字体包里的旧的图标是什么样子的&#xff1f;2、在旧字体包中导…

图像处理与图像分析—图像统计特性的计算(纯C语言实现灰度值显示)

根据输入的灰度图像&#xff0c;分别计算图像的均值、方差等统计特征&#xff0c;并计算图像的直方图特征并以图形方式显示图像的直方图&#xff08;用C或C语言实现&#xff09;。 学习将会依据教材图像处理与图像分析基础&#xff08;C/C&#xff09;版内容展开 在上个笔记中&…

hdml接口无信号,设备管理器报错:由于该设备有问题,Windows 已将其停止。 (代码 43)

今天&#xff0c;由于带电脑外出演示系统&#xff0c;回公司突然hdml接口无信号了&#xff0c;试了同事的电脑没问题&#xff0c;所以排除显示器和线束问题&#xff0c;最后找到设备管理器报错&#xff1a;由于该设备有问题&#xff0c;Windows 已将其停止。 (代码 43)以下是排…

学生时期学习资源同步-1 第一学期结业考试题6

原创作者&#xff1a;田超凡&#xff08;程序员田宝宝&#xff09; 版权所有&#xff0c;引用请注明原作者&#xff0c;严禁复制转载

AI短视频矩阵获客系统|罐头鱼AI视频批量混剪

AI短视频矩阵获客系统&#xff1a;智能管理&#xff0c;助力您的视频营销 如今&#xff0c;短视频已经成为企业宣传和推广的重要手段。为了满足用户对视频管理、发布和编辑的需求&#xff0c;《AI短视频矩阵获客系统》应运而生。Q:290615413这款智能化系统集成了多种功能&#…

Pandas DataFrame 写入 Excel 的三种场景及方法

一、引言 本文主要介绍如何将 pandas 的 DataFrame 数据写入 Excel 文件中&#xff0c;涉及三个不同的应用场景&#xff1a; 单个工作表写入&#xff1a;将单个 DataFrame 写入 Excel 表中&#xff1b;多个工作表写入&#xff1a;将多个 DataFrame 写入到同一个 Excel 表中的…

传统机器学习 基于TF_IDF的文本聚类实现

简介 使用sklearn基于TF_IDF算法&#xff0c;实现把文本变成向量。再使用sklearn的kmeans聚类算法进行文本聚类。 个人观点&#xff1a;这是比较古老的技术了&#xff0c;文本转向量的效果不如如今的 text2vec 文本转向量好。 而且sklearn 不支持GPU加速&#xff0c;处理大量…

交流回馈老化测试负载如何实现这些功能的

交流回馈老化测试负载是一种用于模拟电力系统中各种负载特性的装置&#xff0c;它可以对电力设备进行长时间的老化测试&#xff0c;以确保其在实际运行中的稳定性和可靠性。交流回馈老化测试负载主要通过以下几个方面实现这些功能&#xff1a; 1. 模拟负载特性&#xff1a;交流…

基于YOLOv8深度学习的野外火焰烟雾检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推…

Python 界面逻辑分离示例

本示例使用的发卡设备&#xff1a;https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.6cc85700Robi3x 一、Python 安装PyQt5&#xff0c;运行 Qt Designer 新建窗体文件&#xff0c;在窗体中拖放控件 完成界面设计&#xff0c;保存为…

模拟信号隔离放大器导轨式直流信号转换器0-5V0-10V4-20mA0-75mV0-20mA负载能力0-85mA/0-165mA /0-200mA

概述 导轨安装DIN11HVI 系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要直流信号隔离测控的行业。此系列产品内部采用了线性光电隔离技术相比电磁隔离具有更…

UI 设计师的工作职责是什么?需要掌握哪些技能?

什么是 UI 设计&#xff1f; UI 设计是设计用户界面的一门学科。用户界面是一个人与应用程序、网站或软件之间的联系。类似于平面设计和网页设计&#xff0c;UI 设计者是一种视觉设计师。 即时设计 - 可实时协作的专业 UI 设计工具即时设计是一款支持在线协作的专业级 UI 设计…

算法思想总结:二分查找算法

创作不易&#xff0c;感谢三连&#xff01;&#xff01; 一、二分查找算法思路总结 大家先看总结&#xff0c;然后再根据后面的题型去慢慢领悟 二、二分查找&#xff08;easy&#xff09; . - 力扣&#xff08;LeetCode&#xff09;二分查找 思路&#xff1a;&#xff08;模…

哪个牌子的大路灯对学生的视力好?一文带你了解大路灯

大路灯在如今市场中销量越来越高&#xff0c;与传统台灯相比&#xff0c;大路灯采用LED灯和专业的护眼技术&#xff0c;可以有效缓解用眼疲劳、帮助放松和舒适照明。但需要注意的是&#xff0c;目前市场中品牌类型较多&#xff0c;也有很多劣质的产品&#xff0c;比如网红或跨界…