LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

news2026/2/15 6:52:25

LLMs之gptpdf：gptpdf的简介、安装和使用方法、案例应用之详细攻略

目录

gptpdf的简介

1、处理流程

第一步，使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记，比如:

第二步，使用视觉大模型（如 GPT-4o）进行解析，得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

2、使用

解读test.py代码

3、API

gptpdf的案例应用

gptpdf的简介

gptpdf是一款主要使用视觉大语言模型（如 GPT-4o）将 PDF 解析为 markdown。我们的方法非常简单(只有293行代码)，但几乎可以完美地解析排版、数学公式、表格、图片、图表等。每页平均价格仅需0.013 美元，我们使用 GeneralAgent lib 与 OpenAI API 交互。pdfgpt-ui 是一个基于 gptpdf 的可视化工具。

Github地址：GitHub - CosmosShadow/gptpdf: Using GPT to parse PDF

1、处理流程

第一步，使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记，比如:

第二步，使用视觉大模型（如 GPT-4o）进行解析，得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

pip install gptpdf

2、使用

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

更多内容请见 test/test.py

地址：https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

解读test.py代码

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称（不是 OpenAI 模型名称）
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3、API

parse_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False)
将 pdf 文件解析为 markdown 文件，并返回 markdown 内容和所有图片路径列表。

pdf_path：pdf 文件路径
output_dir：输出目录。存储所有图片和 markdown 文件
api_key：OpenAI API 密钥（可选）。如果未提供，则使用 OPENAI_API_KEY 环境变量。
base_url：OpenAI 基本 URL。（可选）。如果未提供，则使用 OPENAI_BASE_URL 环境变量。
model：OpenAI API格式的多模态大模型，默认为 “gpt-4o”。如果您需要使用其他模型，例如 qwen-vl-max (尚未测试)

GLM-4V, 可以通过修改环境变量 OPENAI_BASE_URL 或指定API参数 base_url 来使用。 (已经测试)

您也可以通过将 base_url 指定为 https://xxxx.openai.azure.com/ 来使用 Azure OpenAI，api_key 是 Azure API 密钥，模型类似于 'azure_xxxx'，其中 xxxx 是部署的模型名称（不是 openai 模型名称）(已经测试)
verbose：详细模式
gpt_worker: gpt解析工作线程数，默认为1. 如果您的机器性能较好，可以适当调高，以提高解析速度。

gptpdf的案例应用

持续更新中……

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1903146.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【数智化人物展】天云数据CEO雷涛：大模型连接数据库为数智化提供高价值数据...

【数智化人物展】天云数据CEO雷涛：大模型连接数据库为数智化提供高价值数据...

雷涛本文由天云数据CEO雷涛投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级先锋人物》榜单/奖项评选。大数据产业创新服务媒体 ——聚焦数据改变商业这几天，奥特曼讲SQL数据库和大模型结合起来会产生什么样的化学变化引起行业关注。为…

阅读更多...

13.SQL注入-宽字节

13.SQL注入-宽字节

SQL注入-宽字节含义： MySQL是用的PHP语言，然后PHP有addslashes()等函数，这类函数会自动过滤 ’ ‘’ null 等这些敏感字符，将它们转义成’ ‘’ \null；然后宽字节字符集比如GBK它会自动把两个字节的字符识别为一个汉…

阅读更多...

frp技术

frp技术

说明：frp（https://github.com/fatedier/frp） 是一个专注于内网穿透的高性能的反向代理应用，支持 TCP、UDP、HTTP、HTTPS 等多种协议，且支持 P2P 通信。可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露…

阅读更多...

19.JWT

19.JWT

1►JWT博客推荐阮老师讲得很好了，网址如下： http://www.ruanyifeng.com/blog/2018/07/json_web_token-tutorial.html 2►ry是怎么践行JWT的呢？ 问题一：不登录的时候有token吗？ 答：没有，所…

阅读更多...

中标麒麟 RAC 19c 部署（Openssh免密BUG解决方案）

中标麒麟 RAC 19c 部署（Openssh免密BUG解决方案）

部署环境： 主机一主机二host ip192.168.80.46192.168.80.47vip 192.168.80.48192.168.80.49private ip192.168.10.10192.168.10.11storage ip192.168.20.33192.168.20.34主机名rac19c1rac19c2 需要上传的软件包： 一.虚拟机配置选择中标麒麟IOS文件&am…

阅读更多...

关于 element-ui el-cascader 数据回显问题的解决方案

关于 element-ui el-cascader 数据回显问题的解决方案

前言这两天在使用 el-cascader 控件时，后端日期的数据如“2023-05-06”前端需要按照“年-月-日”的形式分割成三级联动，因为数据库保存的是完整的日期，前端数据回显时需要对后端返回的数据进行处理。问题再现联动下拉框的数据如下&#x…

阅读更多...

昇思25天学习打卡营第十四天|Pix2Pix实现图像转换

昇思25天学习打卡营第十四天|Pix2Pix实现图像转换

训练营进入第十四天，今天学的内容是Pix2Pix图像转换，记录一下学习内容： Pix2Pix概述 Pix2Pix是基于条件生成对抗网络（cGAN, Condition Generative Adversarial Networks ）实现的一种深度学习图像转换模型&#xff0c…

阅读更多...

C语言 -- 扫雷游戏

C语言 -- 扫雷游戏

C语言 – 扫雷游戏游戏规则： 给定一个棋盘，玩家需要排查出所有隐藏的雷，也就是选择出所有不是雷的地方。玩家选择位置，若此处有雷，玩家被炸死，游戏结束； 若此处无雷，此处提示周围一…

阅读更多...

【SOLID原则前端中的应用】里氏替换原则（Liskov Substitution Principle，LSP）- vue3示例

【SOLID原则前端中的应用】里氏替换原则（Liskov Substitution Principle，LSP）- vue3示例

里氏替换原则（Liskov Substitution Principle，LSP）规定，子类对象必须能够替换父类对象，并且程序的行为保持不变。在Vue 3中，这意味着我们在创建可替换的组件时，应该确保子组件能够完全替代父组…

阅读更多...

Spring源码十五：Bean的加载

Spring源码十五：Bean的加载

上一篇我们通过Spring源码十四：Spring生命周期介绍了refresh的最后两个方法，至此通过前面大概十篇左右的篇幅介绍完了Spring容器初始化，接下来，将进入Spring另外一个模块Bean相关的知识点。在Spring框架中，Bean加载过…

阅读更多...

动态白色小幽灵404网站源码

动态白色小幽灵404网站源码

动态白色小幽灵404网站源码，页面时单页HTML源码，将代码放到空白的html里面，鼠标双击html即可查看效果，或者上传到服务器，错误页重定向这个界面即可，喜欢的朋友可以拿去使用 <!DOCTYPE html> <ht…

阅读更多...

联想小新14Pro，误删了一个注册表，怎么办？

联想小新14Pro，误删了一个注册表，怎么办？

🏆本文收录于「Bug调优」专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&…

阅读更多...

uniapp报错--app.json: 在项目根目录未找到 app.json

uniapp报错--app.json: 在项目根目录未找到 app.json

【问题】刚创建好的uni-app项目，运行微信小程序控制台报错如下： 【解决方案】 1. 程序根目录打开project.config.json文件 2. 配置miniprogramRoot，指定小程序代码的根目录我的小程序代码编译后的工程文件目录为：dist/dev/mp…

阅读更多...

Java常见面试题汇总带答案

Java常见面试题汇总带答案

本文分为十九个模块，分别是： Java 基础、容器、多线程、反射、对象拷贝、Java Web 、异常、网络、设计模式、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、RabbitMQ、 Kafka、Zookeeper、MySQL、Redis、JVM 等等… JDK 和 JRE 有什么区别？ JDK：Jav…

阅读更多...

linux软链接和硬链接的区别

linux软链接和硬链接的区别

1 创建软链接和硬链接如下图所示，一开始有两个文件soft和hard。使用 ln -s soft soft1创建软链接，soft1是soft的软链接；使用ln hard hard1创建硬链接，hard1是hard的硬链接。可以看到软链接的文件类型和其它3个文件的文件类型是不…

阅读更多...

【测试专题】软件总体计划方案（2024原件word）

【测试专题】软件总体计划方案（2024原件word）

测试目标：确保项目的需求分析说明书中的所有功能需求都已实现，且能正常运行；确保项目的业务流程符合用户和产品设计要求；确保项目的界面美观、风格一致、易学习、易操作、易理解。获取：软件全套文档过去进主页。一、…

阅读更多...

什么是五级流水？银行眼中的“好流水”，到底是什么样的？

什么是五级流水？银行眼中的“好流水”，到底是什么样的？

无论是按揭买房还是日常贷款，银行流水都是绕不开的一环。规划好你的流水，不仅能让你在申请贷款时更有底气，还可能帮你省下不少冤枉钱。今天，咱们就来一场深度剖析，聊聊如何在按揭贷款、个人经营抵押贷款前，…

阅读更多...

STM32-SPI和W25Q64

STM32-SPI和W25Q64

本内容基于江协科技STM32视频学习之后整理而得。文章目录 1. SPI（串行外设接口）通信1.1 SPI通信简介1.2 硬件电路1.3 移位示意图1.4 SPI时序基本单元1.5 SPI时序1.5.1 发送指令1.5.2 指定地址写1.5.3 指定地址读 2. W25Q642.1 W25Q64简介2.2 硬件电路2…

阅读更多...

计网_计算机网络概述

计网_计算机网络概述

2024.07.03：计算机网络概述第1节计算机网络概述 1.1 互连网与互联网1.1.1总结1.1.2 因特网(互联网)发展[自行了解] 1.2 计算机网络组成1.2.1 计算机网络组成方式11.2.2 计算机网络组成方式21.2.3 计算机网络组成方式3 1.3 三种交换方式1.3.1 电路交换(1) 电路交换…

阅读更多...

常见的Java运行时异常

常见的Java运行时异常

常见的Java运行时异常 1、ArithmeticException（算术异常）2、ClassCastException （类转换异常）3、IllegalArgumentException （非法参数异常）4、IndexOutOfBoundsException （下标越界异常&#xf…

阅读更多...

推荐文章

最新文章