pymupdf 解析 PDF

news2024/12/23 14:35:36

使用大模型处理文档时,需要对二进制格式的文档进转解析提取文字和图片,本文使用 pymupdf 开源库,对 PDF 进行解析提取文字和图片。

安装依赖

首先安装 pymupdf 依赖

pymupdf4llm==0.0.17
pymupdf==1.24.10
apscheduler==3.10.4

PDF 转 Markdown

pymupdf 将 PDF 转换为 markdown,传入 pdf 路径进行处理。

def  convert_to_md(pdf_path):
    return pymupdf4llm.to_markdown(pdf_path)

PDF 中提取图片

传入 PDF 路径,保存图片,并返回路径列表。

def extract_image(pdf_path):
    doc = pymupdf.open(pdf_path) # open a document
    image_path_list = []
    rad_prefix = ''.join(random.choices(string.ascii_letters, k=5))
    Path(f"images/{rad_prefix}").mkdir(parents=True)
    for page_index in range(len(doc)): # iterate over pdf pages
        page = doc[page_index] # get the page
        image_list = page.get_images()

        # print the number of images found on the page
        if image_list:
            print(f"Found {len(image_list)} images on page {page_index}")
        else:
            print("No images found on page", page_index)
        
        for image_index, img in enumerate(image_list, start=1): # enumerate the image list
            xref = img[0] # get the XREF of the image
            pix = pymupdf.Pixmap(doc, xref) # create a Pixmap

            if pix.n - pix.alpha > 3: # CMYK: convert to RGB first
                pix = pymupdf.Pixmap(pymupdf.csRGB, pix)
            
            image_path = Path("images/%s/page_%s-image_%s.png" % (rad_prefix,page_index, image_index)).absolute()
            image_path_list.append(image_path)
            pix.pil_save(image_path) # save the image as png
            pix = None
    return image_path_list

可视化

通过 Gradio 可视化 PDF 转换。

import gradio as gr
import pdf
def covnert_pdf(x):
    print(x)
    md_content = pdf.convert_to_md(x)
    image_list = pdf.extract_image(x)
    return [md_content , image_list]


with gr.Blocks() as demo:
    gr.Markdown(
        value="# PDF 提取"
    )
    with gr.Tab("Markdown"):
        md = gr.Markdown(
             height=500
        )
    with gr.Tab("Images"):
        gallery = gr.Gallery(columns=4,  object_fit="None", height="auto", show_download_button=True)
    with gr.Row():
        go_btn = gr.UploadButton()
        go_btn.upload(covnert_pdf, go_btn, [md, gallery])

from apscheduler.schedulers.background import BackgroundScheduler


demo.launch()

在这里插入图片描述
在这里插入图片描述

总结

pymupdf 转 markdown 的效果还是不错的,可以到 Modelscope 的空间进行体验。https://modelscope.cn/studios/model1001/pdf_converter

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2198190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis-Plus 之 typeHandler 的使用

一、typeHandler 的使用 1、存储json格式字段 如果字段需要存储为json格式,可以使用JacksonTypeHandler处理器。使用方式非常简单,如下所示: 在domain实体类里面要加上,两个注解 TableName(autoResultMap true) 表示自动…

等级保护等保资料原件合集(word源资料)

第二章 系统定级与安全域 2.1 系统定级 2.1.1 不同等级的安全保护能力 2.1.2 重要信息系统 2.1.3 定级参考 2.2 安全域定义 2.2.1 安全域定义方法 2.2.2 安全域等级描述 第三章 实施方案设计 3.1 三级等保要求 3.2 基本要求的详细技术要求 3.2.1 物理安全 3.2.2 网…

非线性关卡设计

【GDC】如何设计完全非线性的单人关卡_DOOM (bilibili.com) 本文章算是此视频的简单笔记,更详细还请看视频 设计完全非线性关卡强调自由移动和沙盒式玩法,鼓励玩家进行不可预测的移动和空间探索。讲解者分享了设计此类关卡的具体步骤,包括明…

element ui 使用

文章目录 element ui1.组件内部传值使用说明:当我们在app组件中使用movie组件,我们希望movie组件的内容是由app组件来定义,就可以使用prop关键字1.在app组件中导入movie组件并且使用2.在movie中写死数据测试3.使用date测试4.使用props 2.elem…

排序--DS

1. 排序 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。 #稳定性: 假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录…

CentOS 7 yum命令报错...

例如 yum install wget 可以看到是报错的 解决方案 对系统本身的 yum 源进行备份 进入源目录 cd /etc/yum.repos.d/备份 sudo cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup下载阿里云 CentOS 7 镜像源配置文件 sudo curl -o /etc/yum…

安装R和RStudio:开始你的数据分析之旅

数据分析是当今世界中一个非常热门的领域,而R语言是进行数据分析的强大工具之一。R是一种编程语言和软件环境,用于统计计算和图形表示。RStudio是一个集成开发环境(IDE),它为R语言提供了一个更加友好和高效的工作环境。…

Java | Leetcode Java题解之第464题我能赢吗

题目&#xff1a; 题解&#xff1a; class Solution {Map<Integer, Boolean> memo new HashMap<Integer, Boolean>();public boolean canIWin(int maxChoosableInteger, int desiredTotal) {if ((1 maxChoosableInteger) * (maxChoosableInteger) / 2 < desi…

github创建仓库并本地使用流程,以及问题src refspec xxx does not match any

1.在 GitHub 上创建一个新仓库 登录你的 GitHub 账户。 点击右上角的 “” 按钮&#xff0c;然后选择 “New repository”。 填写仓库名称&#xff08;如 my-repo&#xff09;。 &#xff08;可选&#xff09;添加描述&#xff0c;选择是否公开或私有仓库。 &#xff08;可选&…

山羊检测系统源码分享

山羊检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision 研究…

探索 Python 高精度计算的奥秘:mpmath 库全解析

文章目录 探索 Python 高精度计算的奥秘&#xff1a;mpmath 库全解析背景&#xff1a;为何选择 mpmath&#xff1f;第二部分&#xff1a;mpmath 是什么&#xff1f;第三部分&#xff1a;如何安装 mpmath&#xff1f;第四部分&#xff1a;mpmath 函数使用示例第五部分&#xff1…

钢筋计:实时监测技术优化施工安全

在现代建筑工程中&#xff0c;钢筋作为结构支撑的关键材料&#xff0c;其状态直接关系到工程的安全性和耐久性。钢筋计作为一种监测工具&#xff0c;能够实时测量钢筋混凝土结构中的钢筋应力&#xff0c;从而为施工安全提供了科学依据。 了解钢筋计的原理及应用是优化施工安全的…

《恋与深空》陷抄袭争议,但不影响它登顶App Store畅销总榜

伴随着《恋与深空》全新混池而来的&#xff0c;是文案疑似抄袭的负面新闻。 9月23日&#xff0c;《恋与深空》上线了第一个国风混池“欲揽旖旎色”&#xff0c;但比玩家的夸奖与反馈更先来的&#xff0c;是男主角之一秦彻的剧情文案抄袭的争议&#xff0c;#恋与深空 抄袭#火速…

Java 表单提交:如何像 PHP 和 Python 一样简单?

在 Java 中&#xff0c;处理表单提交通常与 PHP 或 Python 中类似&#xff0c;但由于 Java 是一种强类型语言&#xff0c;处理表单提交涉及更多配置和设置。然而我将通过一些现代框架&#xff08;如 Spring Boot&#xff09;&#xff0c;Java 可以实现和 PHP、Python 一样简便的…

Study-Oracle-11-ORALCE19C-ADG集群测试

一、用户及数据测试 1、主库创建tes3用户&#xff0c;创建表test_table。备库登录test3用户并查询test_table表中数据。 -- 创建用户 CREATE USER test7 IDENTIFIED BY test7;-- 给予创建会话的权限 GRANT CREATE SESSION TO test7;-- 给予创建表的权限 GRANT CREATE TABLE TO…

前端vue-配置基地址并发送请求

1.首先&#xff0c;在HBuilder的终端下载安装luch-request 2.创建一个目录utils&#xff0c;以及下面的http.js文件&#xff0c;导入安装包&#xff0c;在new一下request&#xff0c;配置接口的基地址 3.在测试文件目录里面进行测试&#xff0c;看看请求能否发送成功&#xff…

自主主权身份在企业中的作用

随着个人数据日益商品化和集中化&#xff0c;个人重新掌控身份的需求从未如此迫切。 与此同时&#xff0c;企业使用的传统身份系统往往会将敏感信息暴露于不必要的风险中&#xff0c;使用户和组织都容易受到数据泄露和隐私侵犯。 但是&#xff0c;对于当前创建这些无尽的身份…

【3dgs】3DGS**(3D Geometry Sensing)与 **NeRF**(Neural Radiance Fields)对比

以下是 3DGS&#xff08;3D Geometry Sensing&#xff09;与 NeRF&#xff08;Neural Radiance Fields&#xff09;对比表格&#xff1a; 更加详细的资料&#xff0c;轻参考&#xff1a; NERF/3DGS 对比维度3DGS (3D Geometry Sensing)NeRF (Neural Radiance Fields)基本原理…

17.数据结构与算法-串,数组与广义表----数组的顺序存储/特殊矩阵的压缩存储

数组的定义 数组的抽象数据类型定义 数组的顺序存储 一维数组 二维数组 三维数组 n维数组 特殊矩阵的压缩存储 对称矩阵 根据该元素前面有多少个元素来判断位置 三角矩阵 对角矩阵 稀疏矩阵 双下标法 缺点&#xff1a;不能随机存取 十字链表法

Spring Boot 进阶-SpringBoot如何整合多数据源场景

对多数据源大家应该不陌生,一般的在单个应用都会存在一个数据库,一个文件存储。这里所说的数据库就是我们描述的数据源。那么多数据源的意思其实通俗来讲就是在一个单体应用中存在两个以上的数据库。这个时候就需要我们对多个数据源进行分别对待进行处理了。 理解多数据源的…