Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

news2025/1/13 16:56:49

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误：ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1：

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution：

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2247865.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

使用 Nginx 在 Ubuntu 22.04 上安装 LibreNMS 开源网络监控系统

#LibreNMS 是一个功能强大的开源网络监控系统，它能够为你的网络性能和设备提供全面的监控。本文将引导你通过一系列步骤，在 Ubuntu 22.04 服务器上安装和配置 LibreNMS，使用 Nginx 作为 Web 服务器。简介 LibreNMS 提供了对网络设备和性能…

elementUI非常规数据格式渲染复杂表格(副表头、合并单元格)

效果数据源前端代码 (展示以及表格处理/数据处理) 标签 <el-table :data"dataList" style"width: 100%" :span-method"objectSpanMethod"><template v-for"(item, index) in headers"><el-table-column prop"…

使用脚本实现hadoop-yarn-flink自动化部署

本文使用脚本实现hadoop-yarn-flink的快速部署（单机部署）。环境：①操作系统：CentOS 7.6；②CPU：x86；③用户：root。 1.前置条件把下面的的脚本保存到“pre-install.sh”文件&#x…

Linux系统编程之进程基础知识

概述在Linux系统中，进程是指一个正在运行的程序实例。每个进程都有一个唯一的进程标识符，即PID，操作系统通过这个PID来唯一识别和管理各个进程。进程不仅仅是程序代码的运行实例，它还包含了程序运行时所需的各种资源，…

H.264/H.265播放器EasyPlayer.js网页全终端安防视频流媒体播放器关于iOS不能系统全屏

在数字化时代，流媒体播放器已成为信息传播和娱乐消遣的主流载体。随着技术的进步，流媒体播放器的核心技术和发展趋势不断演变，影响着整个行业的发展方向。 EasyPlayer播放器属于一款高效、精炼、稳定且免费的流媒体播放器，可支持…

【数据结构】二叉树的建立与遍历

1.二叉树 1.1 二叉树的定义首先先来回顾一下什么是二叉树： 二叉树（binary tree）是指树中节点的度不大于2的有序树，它是一种最简单且最重要的树。二叉树的递归定义为：二叉树是一棵空树，或者是一棵由一个根…

$51单片机基础 06 串口通信与串口中断$

51单片机基础 06 串口通信与串口中断

目录一、串口通信二、串口协议三、原理图四、串口通信配置参数 1、常用的串行口工作方式1 2、数据发送 3、数据接收 4、波特率计算 5、轮询接收 6、中断接收一、串口通信串口通信是一种常见的数据传输方式，广泛用于计算机与外部设备或嵌入式系统之间…

智慧环保大数据解决方案

1. 智慧环保概述智慧环保是“数字环保”的延伸，借助物联网技术整合环境监控对象，通过云计算实现环境管理与决策的智能化。其核心在于快速感知城市环境指标，保障人体健康与生命安全。 2. 智慧环保总体目标智慧环保的总体目标是建立全面感…

如何使用identify_debugger去抓取信号

含有identify抓取信号的fpga版本做好了，那如何使用他去抓取信号呢？ 1.terminal打开identify_debugger，直接这个命令identify_debugger，前提是你安装了synopsys的synaplify的软件，一般做芯片的都会有的哈。 2.打开界面后…

从 Llama 1 到 3.1：Llama 模型架构演进详解

编者按： 面对 Llama 模型家族的持续更新，您是否想要了解它们之间的关键区别和实际性能表现？本文将探讨 Llama 系列模型的架构演变，梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程，深入剖析了每个版本的技术创新&#…

windows基础

声明！ 学习视频来自B站up主泷羽sec 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关&#…

Jmeter中的配置原件

2）配置原件 1--CSV Data Set Config 用途参数化测试：从CSV文件中读取数据，为每个请求提供不同的参数值。数据驱动测试：使用外部数据文件来驱动测试，使测试更加灵活和可扩展。配置步骤准备CSV文件创建一个CSV文…

c++基础知识复习（2）

1. 多态的虚函数的意义 1 案例：父类和子类有同名函数，但是功能不一样，但是同时，子类又继承了父类，就会导致调用的错误，想调用子类的同名函数， 但是在某些情况下，会错误调用父类的同…

NVR管理平台EasyNVR多个NVR同时管理：全方位安防监控视频融合云平台方案

EasyNVR是基于端-边-云一体化架构的安防监控视频融合云平台，具有简单轻量的部署方式与多样的功能，支持多种协议（如GB28181、RTSP、Onvif、RTMP）和设备类型（IPC、NVR等），提供视频直播、录像、回放…

SpringBoot3+Jasypt如何在配置文件中对数据库的密码进行加密以防止密码泄露

在 Spring Boot 3 中，可以通过jasypt-spring-boot-starter对配置文件中的数据库密码或者其他重要密码进行加密，操作非常简单，可以有效防止密码泄露： 1. 使用 Jasypt 加密添加依赖在 pom.xml 中添加 Jasypt 依赖： …

ARM（安谋） China处理器

0 Preface/Foreword 0.1 参考博客 Cortex-M23/M33与STAR-MC1星辰处理器 ARM China，2018年4月established，独立运行。 1 处理器类型 1.1 周易AIPU 1.2 STAR-MC1（星辰处理器） STAT-MC1，主要为满足AIOT应用性能、功…