通过Python的PyPDF2库提取pdf中的文字

news2026/2/12 20:13:33

文章目录

前言
一、PyPDF2库是什么？
二、安装PyPDF2库
三、查看PyPDF2库版本
四、使用方法
- 1.引入库
- 2.定义pdf路径
- 3.打开PDF文件
- 4.创建PDF阅读器对象
- 5.获取PDF文件中的页数
- 6.遍历每一页
- 7.获取当前页内容
- 8.提取当前页文本
- 9.打印当前页文本
- 10.效果
总结

前言

一、PyPDF2库是什么？

PyPDF2是一个用于处理PDF文件的Python库，它提供了许多用于读取和操作PDF文件的功能。它可以对PDF文件进行合并、分割、旋转、提取页面、加密和解密等操作，也可以添加文本、图像和水印等元素到PDF文件中。
PyPDF2库允许开发人员通过Python代码轻松地处理PDF文件，因为它提供了一些简单易用的接口，同时它也非常灵活，可以根据需要进行自定义操作。对于需要处理PDF文件的Python应用程序，PyPDF2是一个非常实用的工具库。

二、安装PyPDF2库

pip install PyPDF2

三、查看PyPDF2库版本

pip show PyPDF2

Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:

四、使用方法

1.引入库

import PyPDF2

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

with open(local+'demo.pdf', 'rb') as pdf_file:

4.创建PDF阅读器对象

pdf_reader = PyPDF2.PdfReader(pdf_file)

5.获取PDF文件中的页数

num_pages = len(pdf_reader.pages)

6.遍历每一页

for page_num in range(num_pages):

7.获取当前页内容

page = pdf_reader.pages[page_num]

8.提取当前页文本

page_text = page.extract_text()

9.打印当前页文本

print(page_text)

10.效果

大家好，我是空空star，这是第一页。
大家好，我是空空star，这是第二页。
大家好，我是空空star，这是第三页。

Process finished with exit code 0

总结

需要提取的pdf截图

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/552693.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

通过Python的PyPDF2库提取pdf中的文字

文章目录

前言

一、PyPDF2库是什么？

二、安装PyPDF2库

三、查看PyPDF2库版本

四、使用方法

1.引入库

2.定义pdf路径

3.打开PDF文件

4.创建PDF阅读器对象

5.获取PDF文件中的页数

6.遍历每一页

7.获取当前页内容

8.提取当前页文本

9.打印当前页文本

10.效果

总结

相关文章

【2023 · CANN训练营第一季】初识新一代开发者套件 Atlas 200I DK A2---介绍Atlas 200I DK A2的基本使用

研报精选230521

MyBatisX

ARM学习笔记_2 模式，寄存器，流水线

RK3568平台开发系列讲解（驱动基础篇）RK平台IR的使用

解决插件加载动态库的冲突问题

二叉树最大宽度-广度优先方式 -队列应用_20230520

数字图像处理—图像分割算法详解（边缘检测、阈值处理）

【连续介质力学】张量值张量函数

【JavaEE】MyBatis + 单元测试

Selenium是什么，带你了解自动化测试的神奇之处

基于Java web的电子商务系统

基于SpringBoot的校园志愿者管理系统的设计与实现

【LTspice入门】一、LTspice安装

PCIE总线基本介绍(和PCI总线差异、速率计算、引脚定义)

sshd_conf 配置文件详解

kotlin协程async与await

【002hive基础】hive的库、表与hdfs的组织逻辑

Excel统计函数AVEDEV，稳住我们能赢

Linux---phy外设调试