【python脚本系列】python脚本2——PDF转word文档

news2026/2/11 13:06:35

只需2行代码，轻松将PDF转换成Word
机器学习算法那些事 2023-05-05 18:58 发表于广东
编辑：数据分析与统计学之美
可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据，然后采用 python-docx 库解析内容的布局、段落、图片、表格等，最后自动生成 docx 文件。

pdf2docx功能

解析和创建页面布局
- 页边距
- 章节和分栏 (目前最多支持两栏布局)
- 页眉和页脚 [TODO]
解析和创建段落
- OCR 文本 [TODO]
- 水平（从左到右）或竖直（自底向上）方向文本
- 字体样式例如字体、字号、粗/斜体、颜色
- 文本样式例如高亮、下划线和删除线
- 列表样式 [TODO]
- 外部超链接
- 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
解析和创建图片
- 内联图片
  - 灰度/RGB/CMYK等颜色空间图片
  - 带有透明通道图片
  - 浮动图片（衬于文字下方）
解析和创建表格
- 边框样式例如宽度和颜色
- 单元格背景色
- 合并单元格
- 单元格垂直文本
- 隐藏部分边框线的表格
- 嵌套表格
支持多进程转换
pdf2docx同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。

限制

目前暂不支持扫描PDF文字识别
仅支持从左向右书写的语言（因此不支持阿拉伯语）
不支持旋转的文字
基于规则的解析无法保证100%还原PDF样式

安装
pip install pdf2docx

案例
from pdf2docx import parse

pdf_file = ‘/path/to/sample.pdf’
docx_file = ‘path/to/sample.docx’

convert pdf to docx

parse(pdf_file, docx_file)
Run

参考：网址

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/493072.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【面试题】关于JavaScript实现继承的六大方案，你都了解过吗？

【面试题】关于JavaScript实现继承的六大方案，你都了解过吗？

大厂面试题分享面试题库前后端面试题库 （面试必备） 推荐：★★★★★ 地址：前端面试题库 web前端面试题库 VS java后端面试题库大全前言面试官：“你说说 JavaScript 中实现继承有哪几种方法？” …

阅读更多...

相交链表给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。

相交链表给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。

题目解析题目要求如果相交就返回交点如果不相交就返回NULL 思路 1.通过题目的描述我们可以知道，两个单链表相交只有一种形式并不存在下面的的形式我们已经明确了单链表相交的形式， 那我们要如何判断两个单链表相交呢这里给出一种做法&…

阅读更多...

Mysql安装5分钟解决

Mysql安装5分钟解决

文章目录 1.下载安装包：2.MySQL的初始配置3.安装mysql的服务：4.初始化MySQL命令：5.开启mysql服务命令：6.登录验证：7.修改密码： 1.下载安装包： 直接通过这里安装MYSQL5.7下载链接或者进入MySQL…

阅读更多...

干翻Mybatis源码系列之第七篇：Mybatis提供的集成缓存方案

干翻Mybatis源码系列之第七篇：Mybatis提供的集成缓存方案

第一章：Mybatis Orm的缓存 Mybatis定义了一个对象缓存，是Mybatis对缓存的封装，为了屏蔽实现的差异，这被定义成了一个接口Interface，这样的话，Mybatis的缓存基本上是存储于JVM内存中的。一：Ca…

阅读更多...

信息技术服务知识笔记

信息技术服务知识笔记

一、运维 1、基础环境运维服务对保证信息系统正常运行所必需的电力、空调、消防、安防等基础环境的运维。包括：机房电力、消防、安防等系统的理性检查及状态监控、相应支持、故障处理、性能优化等服务 2、硬件运维服务对硬件设备（网络、主机、存储…

阅读更多...

6.2.1mnist _eval

6.2.1mnist _eval

之前在调试6.2.1mnist _eval代码的时候，出现了下面的错误 //下面不阐述本人遇到的错误，直接告诉大家解决办法（以老师给的源代码进行演示） 首先，打开第6章的源代码 //点击程序与数据拆分的文件夹， 并将三个…

阅读更多...

3、Flutter项目搭建

3、Flutter项目搭建

一、搭建项目 1.1 搭建空壳项目接上篇的项目搭建、本篇将继续搭建各个界面.当BottomNavigationBar搭建起来后,在各个界面,没有显示对应的元素,因此我们在包含它的Scaffold中,添加body,这样让每个界面撑起来.每次点击就切换对应的界面. 那么我们创建一个_RootPageState中的私…

阅读更多...

【Python】scikit-plot可视化模型（含源代码）

【Python】scikit-plot可视化模型（含源代码）

文章目录一、前言二、功能1：评估指标可视化2.1 scikitplot.metrics.plot_confusion_matrix2.2 scikitplot.metrics.plot_roc2.3 scikitplot.metrics.plot_ks_statistic2.4 scikitplot.metrics.plot_precision_recall2.5 scikitplot.metrics.plot_silhouette2.6 sci…

阅读更多...

操作系统学习01

操作系统学习01

1、什么是操作系统？ 通过以下四点可以概括操作系统到底是什么： 操作系统（Operating System，简称 OS）是管理计算机硬件与软件资源的程序，是计算机的基石。操作系统本质上是一个运行在计算机上的软件程序 &a…

阅读更多...

微前端 qiankun@2.10.5 源码分析（一）

微前端 qiankun@2.10.5 源码分析（一）

微前端 qiankun2.10.5 源码分析（一） 前言微前端是一种多个团队通过独立发布功能的方式来共同构建现代化 web 应用的技术手段及方法策略。 Techniques, strategies and recipes for building a modern web app with multiple teams that can ship feat…

阅读更多...

Figma转换为sketch，分享这3款工具

Figma转换为sketch，分享这3款工具

在我们的设计工作中，我们经常会遇到各种各样的设计文件相互转换的问题。你经常为此头疼吗？当你遇到Figma转换Sketch文件的问题时，你是如何解决的？Figma转换Sketch文件有工具吗？ 根据众多设计师的经验，本…

阅读更多...

在竞争激烈的移动应用市场中获得成功，掌握决胜Framework技术

在竞争激烈的移动应用市场中获得成功，掌握决胜Framework技术

为何要学习framework？ Framework，指的是对应用程序开发所需的核心工具和组件的封装和提供。在Android开发中，Framework是整个开发过程中的核心组成部分，提供了许多功能和服务，包括UI组件、数据存储、网络通信、多媒体…

阅读更多...

第二十四章策略模式

第二十四章策略模式

文章目录前言传统方式解决鸭子问题完整代码抽象鸭子类野鸭子类北京鸭子类玩具鸭子类一、策略模式基本介绍二、策略模式解决鸭子问题完整代码飞翔接口 FlyBehavior飞翔接口的子类实现飞翔技术高超 GoodFlyBehavior不会飞翔 NoFlyBehavior飞翔技术一般 BadFlyBehavior其他行为接…

阅读更多...

文献阅读 Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

文献阅读 Meta-SR: A Magnification-Arbitrary Network for Super-Resolution

题目 Meta-SR: A Magnification-Arbitrary Network for Super-Resolution Meta-SR: 用于超分辨率的任何放大网络摘要由于DCNN的发展，最近关于超分辨率的研究取得了巨大成功。然而，任意比例因子的超分辨率长期以来一直被忽视。以往的研究者大多将不同…

阅读更多...

Stable-Diffusion AI画画本地搭建详细步骤

Stable-Diffusion AI画画本地搭建详细步骤

ChatGPT出来后，第一次感觉到人工智能真的可能要来了，因此也顺便尝试了下开源AI画画的搭建。网络上写的教程总是不那么面面俱到，因此本文参考了3篇文章才成功把Stable-Diffusion 本地搭建搭建了起来。参考教程在文末。本文是本地搭建AI画画&a…

阅读更多...

C/C++内存泄露检查利器—valgrind

C/C++内存泄露检查利器—valgrind

1、Valgrind概述 Valgrind是一套Linux下，开放源代码（GPL V2）的仿真调试工具的集合。 Valgrind由内核（core）以及基于内核的其他调试工具组成。内核类似于一个框架（framework），它模拟…

阅读更多...

Android中的GPS开发

Android中的GPS开发

GPS简介 Gobal Positioning System，全球定位系统，是美国在20世纪70年代研制的一种以人造地球卫星为基础的高精度无线电导航的定位系统，它在全球任何地方以及近地空间都能够提供准确的地理位置、车行速度及精确的时间信息；它是具有…

阅读更多...

2023年房地产抵押贷款研究报告

2023年房地产抵押贷款研究报告

第一章概述房地产抵押贷款是一种以房地产为抵押品的贷款形式，包括个人和企业两种情况。个人房地产抵押贷款是指个人将名下房产作为抵押品向银行或其他金融机构申请贷款，而企业房地产抵押贷款则是指企业将自己名下的商业房产作为抵押品向金融机构申请贷…

阅读更多...

202309读书笔记｜《野性之美：非洲野生动物初窥》——走进自然界的野性之美

202309读书笔记｜《野性之美：非洲野生动物初窥》——走进自然界的野性之美

《野性之美: 非洲野生动物初窥》微读的一本书，图片居多，非常有视觉上的震撼。拍摄者也是我们孙姓的一员，孙长智。正如作者所说，与自然对话，你会感悟到生命之美、竞争之美、进化之美、和谐之美！ 我喜欢自然…

阅读更多...

SPSS如何绘制常用统计图之案例实训？

SPSS如何绘制常用统计图之案例实训？

文章目录 0.引言1.绘制简单条形图2.绘制分类条形图3.绘制分段条形图4.绘制简单线图5.绘制多重线图6.绘制垂直线图7.绘制简单面积图8.绘制堆积面积图9.绘制饼图10.绘制直方图11.绘制简单散点图12.绘制重叠散点图13.绘制矩阵散点图14.绘制三维散点图15.绘制简单箱图16.绘制分类箱…

阅读更多...

推荐文章

最新文章