Fitz完成PDF转TXT
前言
1、本机为Inspiron 5005
,为64
位,所用操作系统为Windos 10
。所使用开发环境为Anaconda
和jupyter notebook
。
2、本教程主要实现了安装Anaconda
和jupyter notebook
,使用Fitz
完成PDF转TXT。
Anaconda和Jupyter notebook简介
1、Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包以及其依赖项,并且也集成了Jupyter notebook。(注:安装了Anaconda就可以,不用再安装python。)
2、Anaconda支持Linux、Mac、Windows,包含众多流行的科学计算、数据分析的Python包。
3、Anaconda和Jupyter notebook已经成为了数据分析的标准环境。
4、Jupyter Notebook是一个基于网页的交互式笔记本,支持运行多种编程语言,它本质上是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等
安装Anaconda和Jupyter notebook
1、点击链接去清华大学开源软件镜像网站上下载如下图红框中框出的版本。(注:此版本只适用于Windows的64位操作系统,若是其他操作系统请按自身操作系统对应版本下载。)
2、找到刚刚下载好的软件,双击打开,如图,然后点击next
即可。
3、点击I Agree
即可。
4、选择All Users
,然后点击Next
即可。
5、如下图红框中所示,更改安装路径,然后点击Next
即可。(注:这个文件夹不要使用中文或者空格、特殊字符。)
6、直接点击Install
即可。
7、在如下界面耐心等待安装完成,可能会花点时间。
8、安装完成后会出现如下界面,然后点击Next
即可。
9、若有这一步,点击Skip
即可。
10、取消勾选,点击Finish
即可,安装Anaconda结束。(注:这一步后面的为配置环境变量的过程,配置环境变量可以使电脑更好、更便捷地使用Anaconda,但不一定是必须。)
11、在键盘上按下win键,然后在搜索框中输入“环境变量”,点击如下图中红框中的“编辑系统环境变量”。
12、点击“环境变量”。
13、选中Path
,然后点击编辑即可。
14、如下图所示,将自己安装Anaconda的如下路径逐步新建添加到环境变量中,最后点确定即可。(注:要确定自己的Anaconda安装的路径,并且一次只可以新建一条,有耐心点,慢慢创建完就好。)
15、点击确定。
16、在键盘上按下win键,然后在搜索框中输入“cmd”,点击如下图中红框中的“命令提示符”。
17、在窗口中输入python
,然后按下回车键,查看有没有python环境,若有的话,应当如下图所示。
18、在窗口中输入exit()
,然后按下回车键,退出python环境。再输入conda --version
,查看有没有conda环境,若有的话,应当如下图所示。(注:如果提示conda不是内部或外部命令,那一般是Anaconda的环境变量没配置好。好好检查一下。)
19、在键盘上按下win键,然后在搜索框中输入“Anaconda”,双击如下图中红框中的“Anaconda Prompt”,打开Anaconda Prompt,显示如下界面即可。(注:到这一步安装和配置Anaconda就彻底完成了。)
使用Anaconda和Jupyter notebook完成PDF转TXT
1、在自己认为空间很大的磁盘下创建一个文件夹,可自己任意命名。
2、将刚刚自己创建的文件夹的路径复制,然后打开Anaconda Prompt,在其中先输入命令E:
,然后输入命令cd Teach_Code
。(注:输入第一个命令的时候一定要按照自己的文件夹路径进入电脑相应磁盘。)
3、输入命令conda create -n teach python=3.10
,创建一个名称为teach、python版本为3.10的虚拟环境。
4、输入命令y
。
5、输入命令conda activate teach
,激活虚拟环境teach。
6、输入命令pip install ipykernel ipython
,安装将虚拟环境添加到jupyter notebook所需要的包。
7、输入命令pip install PyMuPDF
,安装将PDF转成TXT所需要的包。
8、输入命令python -m ipykernel install --user --name teach --display-name teach
,将在Anaconda中创建的虚拟环境teach添加到jupyter notebook中,出现如下界面即证明添加成功。
9、输入命令jupyter notebook
,在当前目录下打开jupyter notebook。
10、在打开的jupyter notebook中,我们可以看到当前文件夹是空的,因为我们打开的是我创建的文件夹,所以是空的。然后点击New->teach
,创建一个以teach为虚拟环境的.ipynb文件。
11、将我们要处理的PDF文件放入我们刚开始创建的文件夹中,比如我的就是Teach_Code。
12、在刚刚jupyter notebook中创建的.ipynb文件中写如下代码。
(注:示例代码如下)
# 导入当前要使用的PDF转换文字工具包
import fitz
import datetime
import time
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # 进行文字精度以及运行时间测试 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
# 获取当前系统时间
start_time = datetime.datetime.now()
# 打开 PDF 文件
with fitz.open('Mass spectrometry of inorganic, coordination, and organometallic compounds.pdf') as doc:
# 创建一个空字符串
text = ""
# 遍历每一页
for page in doc:
# 获取当前页的文本内容
page_text = page.get_text()
# 将当前页的文本内容添加到总字符串中
text += page_text + "\n"
# 将文本保存到 .txt 文件中
with open('example.txt', 'w', encoding='utf-8') as file:
file.write(text)
# 获取程序执行时间
end_time = datetime.datetime.now()
elapsed_time = end_time - start_time
milliseconds = int(elapsed_time.total_seconds() * 1000)
print(f"处理一个281页PDF的时间:{milliseconds} 毫秒")
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
13、点击运行,即可得到如下图所示结果。
14、也可以在我们开头创建的文件夹中看到我们生成的example.txt文件,如果有兴趣还可以看看.txt文件的内容是否与你需要的一直。(注:本教程到此就结束了,大家如有兴趣可以多去了解了解。)