深入探索pdfplumber:从PDF中提取信息到实际项目应用【第94篇—pdfplumbe】

news2024/11/17 3:41:05

深入探索pdfplumber:从PDF中提取信息到实际项目应用

在数据处理和信息提取的过程中,PDF文档是一种常见的格式。然而,要从PDF中提取信息并进行进一步的分析,我们需要使用适当的工具。本文将介绍如何使用Python库中的pdfplumber库来读取PDF文档,并通过实际代码示例演示如何将提取的信息写入Excel文件。

image-20240223150450981

1. pdfplumber简介

pdfplumber是一个用于处理PDF文件的Python库,它基于PDFMiner、pyPDF2和其他库构建而成。它提供了简单而强大的接口,使得从PDF文档中提取文本、表格和其他元素变得更加容易。

2. 安装pdfplumber

首先,确保你已经安装了Python。然后使用以下命令安装pdfplumber:

pip install pdfplumber

3. 使用pdfplumber读取PDF文档

让我们通过以下步骤演示如何使用pdfplumber读取PDF文档。

import pdfplumber

# 读取PDF文档
with pdfplumber.open('example.pdf') as pdf:
    # 获取文档的总页数
    total_pages = len(pdf.pages)

    # 遍历每一页
    for page_number in range(total_pages):
        # 获取当前页
        page = pdf.pages[page_number]

        # 提取文本内容
        text = page.extract_text()

        # 打印文本内容
        print(f"Page {page_number + 1}:\n{text}")

以上代码演示了如何打开PDF文档,获取总页数,并遍历每一页提取文本内容。接下来,我们将演示如何提取表格数据,并将其写入Excel文件。

4. 将提取的表格数据写入Excel

import pdfplumber
import pandas as pd

# 读取PDF文档
with pdfplumber.open('example.pdf') as pdf:
    # 获取文档的总页数
    total_pages = len(pdf.pages)

    # 创建一个空的DataFrame来存储表格数据
    df = pd.DataFrame()

    # 遍历每一页
    for page_number in range(total_pages):
        # 获取当前页
        page = pdf.pages[page_number]

        # 提取表格数据
        table = page.extract_table()

        # 将表格数据转换为DataFrame
        df_page = pd.DataFrame(table)

        # 将当前页的数据添加到整体DataFrame中
        df = df.append(df_page, ignore_index=True)

    # 将DataFrame写入Excel文件
    df.to_excel('output.xlsx', index=False)

以上代码演示了如何使用pdfplumber提取PDF文档中的表格数据,并将其存储到一个Pandas DataFrame中。最后,将DataFrame写入Excel文件。这样,你就可以轻松地将PDF中的表格数据转移到Excel进行进一步分析。

6. 代码解析

让我们深入了解上述代码的关键部分:

  • 导入pdfplumber和pandas库:

    import pdfplumber
    import pandas as pd
    

    在代码的开头,我们导入了pdfplumber和pandas库。pdfplumber用于处理PDF文件,而pandas用于处理表格数据。

  • 打开PDF文档并遍历每一页:

    with pdfplumber.open('example.pdf') as pdf:
        total_pages = len(pdf.pages)
        df = pd.DataFrame()
        for page_number in range(total_pages):
            page = pdf.pages[page_number]
            # ...
    

    使用pdfplumber.open打开PDF文档,并通过pdf.pages获取文档中的所有页。然后,我们创建一个空的DataFrame df 用于存储表格数据,并使用for循环遍历每一页。

  • 提取表格数据和将其转换为DataFrame:

    table = page.extract_table()
    df_page = pd.DataFrame(table)
    

    使用page.extract_table()方法从当前页提取表格数据,并将其转换为Pandas DataFrame。

  • 将当前页的数据添加到整体DataFrame中:

    df = df.append(df_page, ignore_index=True)
    

    使用df.append方法将当前页的数据添加到整体DataFrame中。ignore_index=True确保每页的数据都具有唯一的索引。

  • 将DataFrame写入Excel文件:

    df.to_excel('output.xlsx', index=False)
    

    使用df.to_excel方法将整体DataFrame写入Excel文件,index=False表示不将DataFrame的索引写入Excel文件中。

8. 进阶应用与注意事项

8.1 进阶应用
  • 处理复杂表格结构: 对于包含合并单元格、嵌套表格等复杂结构的PDF表格,pdfplumber提供了一些高级的方法和属性,如cellsmerge_strategy等,使我们能够更灵活地处理这些情况。

  • 提取非文本元素: pdfplumber不仅可以提取文本数据,还可以获取图片、矩形、线条等元素。这为处理包含图像或其他非文本内容的PDF提供了可能性。

8.2 注意事项
  • PDF文档质量: pdfplumber的性能受到PDF文档质量的影响。在处理低质量或扫描的文档时,提取数据可能会变得更加复杂,需要更多的处理和清理。

  • 编码和字体: 在处理PDF文档时,特别是处理非英语文本时,可能会遇到编码和字体的问题。确保系统中安装了适当的字体,并根据需要设置文本编码。

  • 文档结构变化: pdfplumber依赖于PDF的结构,如果文档的结构发生变化,可能需要调整代码以适应新的结构。

10. 拓展阅读与学习资源

为了帮助读者更深入地学习和应用pdfplumber以及相关技术,以下是一些拓展阅读和学习资源:

  • PDFMiner官方文档: pdfplumber基于PDFMiner,因此熟悉PDFMiner库的使用也是有益的。PDFMiner的官方文档提供了对PDF文档的更底层访问,适合需要更高度自定义的场景。
  • Python编程学习: 如果你是Python新手,建议深入学习Python编程语言的基础知识。你可以通过在线教程、课程或经典教材来提高你的Python编程技能。

11. 探索其他PDF处理工具

pdfplumber是众多用于处理PDF的Python库之一。根据不同需求,你可能还会对其他库感兴趣,如PyMuPDF、PyPDF2等。了解多个库的优缺点,选择适合你项目需求的工具。

12. 参与社区与反馈

如果在使用pdfplumber的过程中遇到问题或有建议,可以通过GitHub等社区渠道提出。积极参与社区讨论,与其他开发者分享经验,共同促进工具的不断改进。

希望通过这些建议和资源,你能够更加深入地学习和应用PDF文档处理技术,提升你的数据分析和信息提取能力。祝你在技术学习的道路上取得更多成就!

13. 实践项目:从PDF中提取特定信息

为了更好地巩固对pdfplumber的理解,让我们尝试一个实践项目:从一份包含多个人员信息的PDF文件中提取姓名、邮箱地址和电话号码,并将其存储到一个结构化的数据格式中。

import pdfplumber
import re

def extract_information_from_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        total_pages = len(pdf.pages)

        # 创建一个空的列表用于存储信息
        extracted_data = []

        for page_number in range(total_pages):
            page = pdf.pages[page_number]

            # 提取文本内容
            text = page.extract_text()

            # 使用正则表达式提取姓名、邮箱地址和电话号码
            name_match = re.search(r'姓名: (.+)', text)
            email_match = re.search(r'邮箱: (.+)', text)
            phone_match = re.search(r'电话: (.+)', text)

            if name_match and email_match and phone_match:
                name = name_match.group(1)
                email = email_match.group(1)
                phone = phone_match.group(1)

                # 将提取的信息添加到列表中
                extracted_data.append({'姓名': name, '邮箱': email, '电话': phone})

    return extracted_data

# 指定PDF文件路径
pdf_file_path = 'person_info.pdf'

# 提取信息并打印
result = extract_information_from_pdf(pdf_file_path)
for entry in result:
    print(entry)

在这个示例中,我们使用正则表达式从每一页的文本中提取姓名、邮箱地址和电话号码。请注意,实际的PDF文档结构可能因具体情况而异,你可能需要根据文档的实际结构进行适当的调整。

14. 进一步学习

  • 深入学习正则表达式: 正则表达式在文本提取中非常有用。深入学习正则表达式的语法和应用可以帮助你更高效地处理各种文本模式。

  • 数据清洗与预处理: 在实际项目中,你可能需要进行更复杂的数据清洗和预处理。学习Pandas和其他数据处理工具,掌握数据清洗技巧将对你的工作大有裨益。

  • Web Scraping: 如果你的信息源不仅限于PDF文档,还包括Web页面,学习Web Scraping技术将进一步拓展你的信息获取能力。

15. 反馈与交流

如果在实践项目中遇到了问题或有任何疑问,欢迎在相关社区、论坛或平台上提出。与其他开发者分享你的经验,获取反馈,这对于你的学习和成长都是非常有益的。祝你在实际项目中取得成功!

16. 最佳实践:代码优化和异常处理

在实际项目中,为了保证代码的可维护性和稳定性,我们通常需要考虑一些最佳实践,包括代码优化和异常处理。

16.1 代码优化
  • 使用函数和模块: 将代码组织为函数和模块,以提高可读性和可维护性。将上述提取信息的代码封装成一个函数,便于复用和管理。
import pdfplumber
import re

def extract_information_from_text(text):
    name_match = re.search(r'姓名: (.+)', text)
    email_match = re.search(r'邮箱: (.+)', text)
    phone_match = re.search(r'电话: (.+)', text)

    if name_match and email_match and phone_match:
        name = name_match.group(1)
        email = email_match.group(1)
        phone = phone_match.group(1)
        return {'姓名': name, '邮箱': email, '电话': phone}
    else:
        return None

def extract_information_from_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        total_pages = len(pdf.pages)
        extracted_data = []

        for page_number in range(total_pages):
            page = pdf.pages[page_number]
            text = page.extract_text()
            
            result = extract_information_from_text(text)
            if result:
                extracted_data.append(result)

    return extracted_data
16.2 异常处理
  • 处理异常情况: 在现实项目中,PDF文档的结构可能因来源和版本而异,因此我们需要在代码中添加适当的异常处理来处理不同情况。
def extract_information_from_pdf(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        total_pages = len(pdf.pages)
        extracted_data = []

        for page_number in range(total_pages):
            try:
                page = pdf.pages[page_number]
                text = page.extract_text()

                result = extract_information_from_text(text)
                if result:
                    extracted_data.append(result)
            except Exception as e:
                print(f"Error processing page {page_number + 1}: {str(e)}")

    return extracted_data

通过添加异常处理,我们能够捕获并打印错误信息,同时继续处理其他页面,确保程序的鲁棒性。

17. 持续学习和实践

在编程和数据处理的领域中,持续学习和实践是非常关键的。不断挑战新的项目,学习新的技术和工具,参与开发者社区的讨论和贡献,将有助于提升你的技能水平。

  • 参与开源项目: 在GitHub等平台上,有许多与PDF处理相关的开源项目,可以参与其中,学习他人的代码风格和最佳实践。

  • 阅读相关文档和博客: 随着技术的不断更新,阅读相关文档和博客是了解最新技术动态和最佳实践的好方法。

  • 参与在线学习平台: 利用在线学习平台(如Coursera、edX、Udacity等),参加相关的课程和培训,提升自己的专业水平。

通过不断的学习和实践,你将能够更加熟练地处理各种数据处理任务,从而在实际项目中表现出色。祝你在编程和数据处理的旅程中取得更多成功!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1467401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

危险!Wyze 摄像头安全漏洞致1.3万用户隐私遭窥探

最近,一则关于 Wyze 摄像头再次出现安全漏洞的新闻引起了人们的广泛关注。据报道,该安全漏洞导致约1.3万用户的摄像头受到了未经授权的访问,使得这些用户的隐私信息遭到了窥视。这一事件再次引发了人们对网络安全的关注和讨论。 网络安全不仅…

老杨说运维 | 运维大数据价值探索

文末附有视频 伴随第六届双态IT乌镇用户大会的圆满完成,擎创科技“一体化数智管理和大模型应用”主题研讨会也正式落下了帷幕。 云原生转型正成为很多行业未来发展战略,伴随国家对信创数字化要求的深入推进,面对敏稳共存这一近年出现的新难…

svn客户端下载、安装、使用

下载、使用 打开360软件管家,选怎宝库,搜索svn,点击安装 可以修改安装路径 使用 在桌面右键弹出菜单,点击 输入地址,点击ok 输入用户名、密码 ,等待检出完成

Linux 可视化管理-webmin 和 bt 运维工具安装教程

Linux 可视化管理-webmin 和 bt 运维工具安装教程 webmin webmin 是功能强大的基于 Web 的 Unix/linux 系统管理工具。管理员通过浏览器访问 Webmin 的各种管理功能并完成相应的管理操作。除了各版本的 linux 以外还可用于:AIX、HPUX、Solaris、Unixware、Irix 和…

Linux学习方法-框架学习法——Linux应用程序编程框架

配套视频学习链接:https://www.bilibili.com/video/BV1HE411w7by?p4&vd_sourced488bc722b90657aaa06a1e8647eddfc 目录 Linux应用程序编程 Linux应用程序编程 Linux文件I/O(input/output) Linux文件I/O(五种I/O模型) Linux多进程 Linux多线程 网络通信(s…

游戏空间划分技术

一、 前言 空间划分算法有很多,比如均匀网格,四/八叉树,k-d树,Bsp树,每一种算法都有自己的优缺点,我们需要从理论上理解这些算法,然后在实际项目中进行灵活的运用。 游戏中经常使用空间划分算…

【深度学习】Pytorch 系列教程(七):PyTorch数据结构:2、张量的数学运算(5):二维卷积及其数学原理

文章目录 一、前言二、实验环境三、PyTorch数据结构1、Tensor(张量)1. 维度(Dimensions)2. 数据类型(Data Types)3. GPU加速(GPU Acceleration) 2、张量的数学运算1. 向量运算2. 矩阵…

TESTLINK 测试用例数据结构解析

一、node_types 测试组件信息表 我们查询表 select * from testlink.node_types; 得到如下结果 二、nodes_hierarchy 测试用例目录层次表 我们以下图的项目为例,来讲解 1、测试项目 首先,我们有个Train的项目,存在表testprojects中&#…

动态获取 微信小程序appid / 自定义启动命令

官网:https://uniapp.dcloud.net.cn/collocation/package.html#%E7%94%A8%E6%B3%95 小程序开发完成之后需要一套代码多个小程序使用,每次都需要在manifest.json文件中手动修改,大大增加了开发的复杂度。 官网:https://uniapp.dcl…

【大数据】Flink 内存管理(一):设置 Flink 进程内存

Flink 内存管理(一):设置 Flink 进程内存 1.配置 Total Memory2.JVM 参数3.根据比例限制的组件(Capped Fractionated Components) Apache Flink 通过严格控制各种组件的内存使用,在 JVM 上提供高效的工作负…

测试计划、测试方案、测试策略、测试用例的区别

一 测试计划 测试计划是指描述了要进行的测试活动的范围、方法、资源和进度的文档。它主要包括测试项、被测特性、各阶段的测试任务、时间进度安排,谁执行任务和风险控制等,可以包括测试策略。 二 测试方案 测试方案是指描述需要测试的特性、测试的方…

Android 输入法框架简介

每种平台都有自己的输入法框架. GNU/Linux 桌面环境有多种输入法框架, 比如 ibus, fcitx 等. 但是 Android 操作系统只有一种, 是统一提供的输入法框架. 相关链接: 《ibus 源代码阅读 (1)》 https://blog.csdn.net/secext2022/article/details/136099328https://developer.and…

【Pytorch】从MoCo看无监督对比学习;从SupCon看有监督对比学习

目录 无监督对比学习:Moco文章内容理解代码解释 有监督对比学习:Supervised Contrastive Learning文章内容理解 无监督对比学习:Moco 文章内容理解 以下内容全部来自于:自监督学习-MoCo-论文笔记. 侵删 论文:Momentu…

ShardingSphere5.x 分库分表

一、shardingSphere介绍 1、官网:Apache ShardingSphere 2、开发文档: 概览 :: ShardingSphere 3、shardingsphere-jdbc ShardingSphere-JDBC 定位为轻量级 Java 框架,在 Java 的 JDBC 层提供的额外服务。 它使用客户端直连数据库&#x…

Vue3+TS+ElementPlus 001 环境配置

1.1 环境准备 1.1.1 安装vue-cli(第一次需要) npm install -g vue/cli 1.1.2 创建vue项目 vue create 项目名称(项目名称尽量不要使用中文) 1.1.3 选择相应的项目 1.1.4 启动项目 npm run serve 2.1 引入element-plus 2.1.1 安装 一个 Vue 3 UI 框…

Linux操作体系结构与功能流程

文章目录 前言一、linux操作系统结构二、操作系统的工作方式三、操作系统内核中各级模块的相互关联四、Linux操作系统结构的独立性 前言 以内核代码 v0.11 和 v3.4.2 版本源码对 Linux 内核相关知识进行学习,由浅入深逐步掌握 Linux 内核。本文记录 Linux 操作系统…

小区视频汇聚与智能监管方案:老破小升级改造与小区智慧化建设

一、需求背景 在当今数字化时代,智慧小区已成为城市建设的必然趋势。加快小区智能化改造,不断完善小区管理和服务,彻底改变粗放型管理方式已经成为当前小区智慧化趋势的重要任务。其中,智能视频监控系统在提高小区安全性和管理效…

ROS查找pkg

要在ROS中查找包名为"joint_state_publisher"的软件包,可以使用以下命令行指令来进行查找: 查找pkg“joint_state_publisher” rospack find joint_state_publisher这将返回该软件包所在的路径。如果结果不存在或者未安装该软件包&#xff0…

Sora 对未来视频创作伦理的挑战和思考

Sora 对未来视频创作伦理的挑战和思考 随着人工智能技术的飞速发展,AI视频模型Sora的出现为视频创作带来了革命性的变革。然而,在技术进步的同时,也带来了一些伦理问题值得我们深思。 1. 真实性和虚假信息: Sora能够生成逼真的视频画面&…

Pytorch 自用 Scheduler 分享

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…